Bibliothèque nationale de France
Pour les professionnels
Dossiers de presse
Les enjeux du dépôt légal de la Toile Dossier de presse [fichier .pdf – 1669 Ko – 14/12/05 – 27 p.]
Internet en campagne :
de l'archivage des sites électoraux à leur communication au public
Dossier de presse
[fichier .pdf – 168 Ko – 25/10/06 – 10 p.]
La Bibliothèque nationale de France est placée aujourd'hui devant un formidable défi : comment recueillir et sauvegarder, pour les générations futures, la trace de ce qui circule sur l'Internet français ? Mission sans laquelle notre époque deviendra, dans l'avenir, inintelligible.
La BnF se prépare à cette tâche depuis 1999. Elle a conduit notamment des expérimentations de collecte concernant les sites électoraux lors des scrutins présidentiels, législatifs, régionaux et européens, entre 2002 et 2004.
À partir de 2004, la réalisation, en partenariat avec la fondation Internet Archive, de collectes larges du domaine français a représenté un jalon essentiel pour la mise en œuvre de sa mission. Enfin, l’internalisation progressive de l’infrastructure de collecte, de 2006 à 2007, a constitué une autre étape décisive : de projet, le dépôt légal de l’Internet est devenu une activité courante de la BnF, désormais gérée par le service du Dépôt légal numérique.
La loi du 1er août 2006 a étendu le champ du dépôt légal aux "signes, signaux, écrits, images, sons ou messages de toute nature faisant l’objet d'une communication au public par voie électronique".
L’archivage de la Toile s’attache à la fois aux sites en tant qu’unités et aux liens qui tissent des relations entre les pages d’un site et entre les sites eux-mêmes. La BnF utilise des robots destinés à la fois à parcourir ces liens et à collecter les contenus eux-mêmes (pages, fichiers encapsulés et liens). Pour que ces robots puissent travailler, il leur faut trouver au moins un lien qui mène vers les sites et les pages qui les composent. Or, ils peuvent être arrêtés par des barrières techniques qu’ils ne connaissent pas ou par des mots de passe.
La technique de collecte automatique ne peut donc être appliquée qu’à la "surface" de la Toile, accessible aux robots. Elle a été utilisée dès 1996 pour l’archivage de l’Internet à grande échelle, aux Etats-Unis par Internet Archive, et par la Bibliothèque Royale de Suède qui a réalisé des prises de vue périodiques du domaine national suédois dès 1997. Les archives rassemblées selon cette méthode représentent une "photographie instantanée" d’un ensemble de sites et offrent une bonne représentation de la diversité et de la richesse des contenus de la Toile, mais ne peuvent rendre compte de tous les changements et mises à jour qui interviennent à l’intérieur de chaque site, dans un environnement éditorial souvent éphémère.
La BnF a testé dès 1999 la collecte automatique dans le cadre du projet européen NEDLIB, puis elle a réalisé un "instantané" du domaine .fr en juin 2002 en utilisant le même robot que la Bibliothèque Royale de Suède. Ces expérimentations ont mis en évidence la nécessité de disposer d’un robot spécialisé pour la collecte patrimoniale. Celui-ci devait permettre :
Puisque la Toile ne connaît pas de frontières, ces outils sont réalisés grâce à la collaboration et la complémentarité des grandes institutions de mémoire au niveau mondial réunies au sein du Consortium international pour la préservation de l’Internet (IIPC).
Les outils de collecte à grande échelle ne sont pas adaptés au dépistage de sites événementiels qui surgissent et disparaissent rapidement ni à la capture profonde et exhaustive des sites dès qu’ils représentent un volume conséquent. Une prospection documentaire ciblée est donc nécessaire pour améliorer la qualité de la collection. Les sites sont alors signalés manuellement au robot en précisant quelle fréquence et à quelle "profondeur" il doit les capturer.
Cette démarche a été choisie notamment par la Bibliothèque du Congrès qui a réalisé des collectes thématiques de sites de tous pays : il s’agit de garder trace du regard international jeté sur les événements majeurs de l’Histoire américaine récente - tels les élections présidentielles de 2000 (767 sites), les attentats du 11 Septembre (30 000 sites) et les élections de "mid term" de 2002 (4 000 sites).
Un processus similaire a conduit la BnF à expérimenter un archivage thématique des sites électoraux en France (scrutins présidentiels et législatifs de 2002, régionaux et européens de 2004). Les sites à archiver ont été sélectionnés, à chaque fois, par une équipe de bibliothécaires de la BnF avec, de surcroît, la contribution pour 2004 des bibliothèques françaises partenaires du réseau des bibliothèques de dépôt légal imprimeur, "pôles associés" de la BnF.
Du 15 février au 15 juin 2002, 1900 sites différents ont été saisis en 6300 captures. L’archive constituée représente un volume de 530 Go et 12 millions de fichiers. La taille moyenne d’un site est de 85 Mo.
Cette politique a été adaptée en fonction du déroulement des élections : l'Internet est devenu un lieu de débat majeur, surtout après le premier tour et la surprise du 21 avril, notamment au travers des forums de discussion qui ont été ajoutés alors à la capture.
Le bilan technique réalisé après ce premier test a permis, deux ans plus tard, de mieux cibler l’effort, tout en conservant pour l’essentiel l’organisation du travail et les principes de sélection. Les captures ont été de meilleure qualité et les volumes saisis moins importants (pour les régionales : 870 sites et 4000 captures entre le 6 février et le 9 avril avec un volume d’archive de 161 Go et 6,3 millions de fichiers).
La Bibliothèque a expérimenté plusieurs formes de dépôt électroniques de sites afin de définir, en accord avec les producteurs, une méthode et des procédures propres à en limiter la charge, à la fois pour le déposant et pour l’organisme dépositaire, à un niveau supportable. Plus de 100 éditeurs de sites ont été approchés et 36 ont finalement accepté de déposer leurs fichiers.
Une attention particulière a été portée au traitement des sites utilisant des passerelles documentaires pour accéder à des documents tels que des articles de presse, des ouvrages, des images ou des vidéos, et pour lesquels le format des bases de données doit être modifié pour permettre leur dépôt.
La compétence acquise dans ce champ a permis à la BnF d’expérimenter le dépôt de certains documents traditionnels sous forme désormais numérique.
La BnF a signé en 2004 avec la fondation Internet Archive une convention de recherche portant sur la définition du "domaine national" pour une campagne d’archivage de la Toile. C’est dans le cadre de cette convention, qu’Internet Archive a réalisé, au profit de la BnF, des "instantanés" annuels du domaine national français.
Ces collectes concernent de façon prioritaire les sites du domaine .fr. Des sites appartenant à des domaines génériques (.com, .org…) ont également pu être collectés, s’ils sont reliés par un lien hypertexte à un site du domaine .fr.
La signature en septembre 2007 d’une convention avec l’AFNIC (Association française pour le nommage Internet en coopération) a permis à la BnF de disposer de la liste exhaustive de tous les noms de domaines en .fr et .re (pour l’Ile de la Réunion).
Chacun de ces instantanés rassemble plusieurs centaines de millions de fichiers, représentant un poids croissant : de 2,5 téraoctets en 2004 à 7 téraoctets en 2007.
En 2004 a été constitué, au sein de la BnF, un réseau de « correspondants » du dépôt légal de l’Internet. Il s’agit d’un groupe de bibliothécaires ayant la charge de sélectionner des sites Internet représentatifs de leur domaine d’expertise scientifique. Certains de ces sites ont vocation à être capturés dans la durée par la BnF, à une fréquence définie, dans le cadre de la collecte courante. D’autres sites font l’objet d’une campagne d’archivage ponctuelle, pour illustrer un événement ou une thématique particuliers.
En 2007, ce réseau regroupe une centaine de bibliothécaires. La quasi-totalité des départements thématiques et de dépôt légal de la BnF y sont représentés. L’ensemble des sites de la collecte ciblée représente environ 5 000 sites.
De 2005 à 2006, la réalisation des collectes ciblées a été effectuée par Internet Archive. Cette tâche est depuis 2007 assurée en interne par la BnF.
Les sites liés à l’élection présidentielle et aux élections législatives de 2007 ont été capturés sur une période de dix mois, d’octobre 2006 à juillet 2007. Ce projet a mobilisé plus d’une quarantaine d’agents, à la BnF ainsi que dans des bibliothèques en région : les bibliothèques de Caen, Dijon, Lille, Limoges, Lyon, Nouméa, Poitiers et Strasbourg ont été associées à la sélection des sites liés aux élections législatives.
Le projet a permis la capture de plus de 5 800 sites ou parties de sites, à des fréquences régulières (allant d’une fois par semaine à une seule fois, selon les sites). Tous les types d’acteurs du débat politique sur la Toile ont été représentés : sites de candidats, de partis ou d’organisations de soutien, mais aussi blogs de militants, observatoires de la « Net-politique » ou presse en ligne. La collection constituée représente un ensemble de 63 millions de fichiers, soit 3,4 téraoctets de données.
L'internalisation des collectes représente une étape décisive pour la mission de dépôt légal de l’Internet au sein de la BnF. Ce qui était initialement un projet est devenu une activité à part entière de l’établissement.
jeudi 29 septembre 2011