AccueilProfessionnelsDépôt légalDépôt légal de l'InternetHistorique du projet 1999-2007

 

Dépôt légal de l'Internet :
historique du projet 1999-2007

Sommaire
Les techniques d'archivage automatique à grande échelle
La collecte thématique des sites
Le dépôt des sites
Les collectes large du domaine .fr
Les collectes ciblées
La collecte des sites électoraux de 2007

 

en savoir +

sur les aspects juridiques du dépôt légal de l'Internet

 

voir aussi

le dossier de presse : Les enjeux du dépôt légal sur la Toile

[document .pdf 1679 Ko]

 

le dossier de presse : Internet en campagne. De l’archivage des sites électoraux à leur communication au public, octobre 2006

[document .pdf 168 Ko]

 

La Bibliothèque nationale de France, responsable de la mémoire collective, est placée aujourd'hui devant un formidable défi : comment recueillir et sauvegarder, pour les générations futures, la trace de ce qui circule sur la Toile ? Mission sans laquelle notre époque serait, dans l'avenir, inintelligible.

 

La BnF se prépare à cette tâche depuis 1999. Elle a conduit notamment des expérimantations de collecte concernant les sites électoraux lors de la présidentielle, des législatives, des régionales et des européennes, entre 2002 et 2004, expériences dont l'analyse est éclairante.

 

A partir de 2004, la réalisation de collectes larges du domaine français a représenté un jalon essentiel de la mise en œuvre de sa mission. Enfin, l’internalisation progressive de l’infrastructure de collecte, de 2006 à 2007, peut être considérée comme une étape décisive : de projet, le dépôt légal de l’Internet est devenu une activité courante de la BnF.

Le dépôt légal de l'Internet s'inscrit dans une continuité historique au coeur des missions de la bibliothèque depuis sa fondation.

 

Le dépôt légal est l’obligation faite par la loi à tout éditeur, imprimeur, producteur, distributeur, importateur de documents d’en effectuer un dépôt auprès des organismes désignés par la loi.

 

Initialement promulgué pour les livres imprimés et les périodiques, il s’est, au cours de l’Histoire, étendu à tous les types d’expression et de création, en intégrant dans son champ d’application les nouvelles techniques, au fur et à mesure de leur apparition. C’est ainsi que la BnF reçoit par voie de dépôt légal :

Le dépôt légal est organisé en vue de permettre :

La loi du 1er août 2006 a étendu en effet le champ du dépôt légal aux "signes, signaux, écrits, images, sons ou messages de toute nature qui font l’objet d'une communication au public par voie électronique".

 

Dès avant la publication de la loi, la BnF s’est préparée pour définir le périmètre de cette nouvelle forme de dépôt légal et pour élaborer une méthode de travail qui soit tout la fois fidèle à sa mission et adaptée à ce nouveau mode d’édition et de diffusion.

retour haut de page

L’archivage de la Toile s’attache à la fois aux sites en tant qu’unités et aux liens qui tissent des relations entre les pages d’un site et entre les sites eux-mêmes. La BnF utilise des robots destinés à la fois à parcourir ces liens et à collecter les contenus eux-mêmes (pages, fichiers encapsulés et liens). Pour que ces robots puissent travailler, il leur faut trouver au moins un lien qui mène vers les sites et les pages qui les composent. Or, ils peuvent être arrêtés par des outils techniques qu’ils ne connaissent pas ou par des mots de passe qu’ils ignorent.

 

La technique de collecte automatique ne peut donc être appliquée qu’à la "surface" de la Toile, accessible aux robots. Elle a été utilisée dès 1996 pour l’archivage de l’Internet à grande échelle, aux Etats-Unis par la Fondation Internet Archive, et par la Bibliothèque Royale de Suède qui réalise des prises de vue périodiques du domaine national suédois depuis 1997. Les archives rassemblées selon cette méthode représentent une "photographie instantanée" de tout un ensemble de sites et offrent une bonne représentation de la diversité et de la richesse des contenus de la Toile, mais elles ne rendent pas compte de tous les changements fréquents intervenus à l’intérieur de chaque site, dans un univers éditorial souvent éphémère.

 

La BnF a testé dès 1999 la collecte automatique dans le cadre du projet européen NEDLIB, puis elle a réalisé un "instantané" du domaine .fr en juin 2002 en utilisant le même robot que la Bibliothèque Royale de Suède. Ces expérimentations ont mis en évidence la nécessité de disposer d’un robot spécialisé pour la collecte patrimoniale. Celui-ci devait permettre :

  • de définir une cartographie de la Toile concernant un ensemble national qui est constitué des sites du domaine national .fr et des sites des domaines génériques (.com, .edu, .org, etc…) ;
  • de repérer les fréquences de mise à jour des sites collectés et leur durée de vie moyenne ;
  • de signaler la présence de données inaccessibles qui devront faire l’objet d’un dépôt si leur intérêt le justifie.

Puisque la Toile ne connaît pas de frontières, la conception puis l’élaboration de tels outils ne peuvent être réalisées que par la collaboration et la complémentarité des grandes institutions de mémoire au niveau mondial réunies au sein du Consortium international pour la préservation de l’Internet.

retour haut de page

Les outils de collecte à grande échelle ne sont pas adaptés au dépistage de sites événementiels qui surgissent et disparaissent rapidement. Une prospection documentaire ciblée peut donc être nécessaire pour y parvenir. Les sites sont alors signalés manuellement au robot à qui l’on indique selon quelle fréquence et à quelle "profondeur" il doit les capturer.

 

Cette démarche a été choisie notamment par la Bibliothèque du Congrès qui a réalisé des collectes thématiques de sites de tous pays : il s’agit de garder trace du regard international jeté sur les événements majeurs de l’Histoire américaine récente - tels les élections présidentielles de 2000 (767 sites), les attentats du 11 Septembre (30 000 sites) et les élections de "mid term" de 2002 (4 000 sites).

 

Un processus similaire a conduit la BnF à expérimenter un archivage thématique des sites électoraux en France (présidentielle et législatives de 2002, régionales et européennes de 2004). Les sites à archiver ont été sélectionnés, à chaque fois, par une équipe de bibliothécaires constituée en son sein avec, de surcroît, la contribution pour 2004 des bibliothèques françaises partenaires de notre réseau de "pôles associés".

retour haut de page

Le dépôt de sites extraits de leur contexte est déjà pratiqué par diverses institutions de mémoire, à hauteur de quelques milliers d’unités. Une telle procédure ne permet de traiter qu’un faible pourcentage des contenus de la Toile car elle exige un traitement manuel à l’unité. Elle doit être réservée à des cas exceptionnels et importants, et concerner des sites ou des portions de sites qui ne peuvent être copiés par un robot, que ce soit pour des raisons techniques ou parce que l’accès en est réservé. La copie reçue sera ensuite intégrée dans l’archive générale, les liens qui la rattachent au contexte devant être ensuite réactivés.

En 2001-2002 : premiers pas

La Bibliothèque a expérimenté alors le dépôt de sites de toutes sortes afin de définir, en accord avec les producteurs, une méthode et des procédures propres à en limiter la charge, à la fois pour le déposant et pour l’organisme dépositaire, à un niveau supportable. Plus de 100 sites ont été approchés et 36 ont été finalement déposés et intégrés.

 

Les sites expérimentaux ont été proposés par les départements de la Bibliothèque selon des critères divers : soit ils se trouvent en continuité avec les collections "classiques" ou transposent des contenus précédemment conservés sur d’autres supports, soit ils inaugurent de nouvelles formes d’expression, soit enfin ils permettent d’affronter des défis techniques singuliers.

Une attention particulière a été portée au traitement des sites utilisant des passerelles documentaires pour accéder à des documents tels que des articles de presse, des ouvrages, des images ou des vidéos, et pour lesquels le format des bases de données doit être modifié pour permettre leur dépôt.

Il faut ajouter que la compétence acquise dans ce champ a permis à la BnF d’expérimenter le dépôt de certains documents traditionnels sous forme désormais numérique.

retour haut de page

La BnF a signé en 2004 avec la fondation Internet Archive une convention de recherche portant sur la définition du "domaine national" pour une campagne d’archivage de la Toile. C’est dans le cadre de cette convention, renouvelée en 2007, qu’Internet Archive a réalisé, au profit de la BnF, quatre « instantanés » du domaine national français. La première collecte, à l’automne 2004, a été suivie de trois autres fin 2005, fin 2006 et fin 2007 (une cinquième est programmée fin 2008).

 

Ces collectes concernent de façon prioritaire les sites du domaine .fr. Des sites appartenant à des domaines génériques (.com, .org…) ont également pu être collectés, s’ils sont reliés par un lien hypertexte à un site du domaine .fr.

 

La  signature en septembre 2007 d’une convention avec l’AFNIC (Association française pour le nommage Internet en coopération) a permis de disposer de la liste exhaustive de tous les noms de domaines en .fr et .re (pour l’Île de la Réunion).

 

Chacun de ces instantanés rassemble plusieurs centaines de millions de fichiers, représentant un poids croissant : de 2,5 téraoctets en 2004 à 7 téraoctets en 2007.

 

En 2004 a été constitué, au sein de la BnF, un réseau de « correspondants » du dépôt légal de l’Internet. Il s’agit d’un groupe de bibliothécaires ayant la charge de sélectionner des sites Internet représentatifs de leur domaine d’expertise scientifique. Certains de ces sites ont vocation à être capturés dans la durée par la BnF, à une fréquence définie, dans le cadre de la collecte courante. D’autres sites font l’objet d’une campagne d’archivage ponctuelle, pour illustrer un événement ou une thématique particuliers.

 

En 2008, ce réseau regroupe plus d’une centaine de bibliothécaires. La quasi-totalité des départements thématiques et de dépôt légal de la BnF y sont représentés. A cette même date, l’ensemble des sites de la collecte ciblée représente un total de 4 800 sites, sans compter les sites capturés dans le cadre d’un projet spécifique.

 

De 2005 à 2006, la réalisation des collectes ciblées a été effectuée par la fondation Internet Archive. Cette tâche est depuis 2007 assurée en interne par la BnF, grâce à l’infrastructure de collecte créée à l’occasion de l’archivage des sites électoraux de 2007.

retour haut de page

Les sites liés à l’élection présidentielle et aux élections législatives de 2007 ont été capturés sur une période de dix mois, d’octobre 2006 à juillet 2007. Ce projet a mobilisé plus d’une quarantaine d’agents, à la BnF ainsi que dans des bibliothèques en région : les bibliothèques de Caen, Dijon, Lille, Limoges, Lyon, Nouméa, Poitiers et Strasbourg ont été associées à la sélection des sites liés aux élections législatives.

Le projet a permis la capture de plus de 5 800 sites ou parties de sites, à des fréquences régulières (allant d’une fois par semaine à une seule fois, selon les sites). Tous les types d’acteurs du débat politique sur la Toile ont été représentés : sites de candidats, de partis ou d’organisations de soutien, mais aussi blogs de militants, observatoires de la « Net-politique » ou presse en ligne. La collection constituée représente un ensemble de 63 millions de fichiers, soit 3,4 téraoctets de données.

 

L'ampleur du projet « Internet en campagne » s’explique par l’importance acquise par la Toile dans le débat électoral. Pour la BnF, cette collecte a également représenté un banc d’essai afin de mettre en place une infrastructure de collecte en interne. Sa longue durée a permis une « montée en charge » progressive. Le nombre de sites à collecter a augmenté régulièrement, au fur et à mesure que le dynamisme de la Web-campagne s’amplifiait. Enfin, la bibliothèque a assuré un nombre croissant de fonctions, réalisant ainsi un cycle complet de la collecte à l’archivage.

 

L'internalisation des collectes représente une étape décisive pour la mission de dépôt légal de l’Internet au sein de la BnF. Ce qui était initialement un projet est devenu une activité à part entière de l’établissement.