Soutenez la BnF
Formulaire de recherche

Pour les professionnels

Historique de l'archivage du web à la BnF

Dès 1999, la BnF a considéré que sa mission de conservation patrimoniale devait s’appliquer à l’internet et aux publications numériques en ligne. Son dispositif scientifique et technique d'archivage du web s'est mis en place étape par étape. En 2006, la loi sur le dépôt légal de l’internet a donné une assise juridique forte à son activité.

1999 - 2004 : le temps des expérimentations

Les débuts de l'archivage automatique à grande échelle

L’archivage du web s’attache aussi bien aux sites en tant qu’unités, qu’aux liens qui tissent des relations entre les pages d’un site et entre les sites eux-mêmes. La BnF utilise des robots destinés à la fois à parcourir ces liens et à collecter les contenus eux-mêmes (pages, fichiers encapsulés et liens). Pour que ces robots puissent travailler, il leur faut trouver au moins un lien qui mène vers les sites et les pages qui les composent.

La technique de collecte automatique a été utilisée dès 1996 pour l’archivage de l’internet à grande échelle, aux Etats-Unis par Internet Archive, et en Suède par la Bibliothèque Royale qui a réalisé des prises de vue périodiques de son domaine national dès 1997. Les archives rassemblées selon cette méthode constituent une « photographie instantanée » d’un ensemble de sites et offrent une bonne représentation de la diversité et de la richesse des contenus du web. Elles ne peuvent cependant pas rendre compte de tous les changements et mises à jour qui interviennent à l’intérieur de chaque site, dans un environnement éditorial souvent éphémère.

La BnF a testé dès 1999 la collecte automatique dans le cadre du projet européen NEDLIB, puis elle a réalisé un « instantané » du domaine .fr en juin 2002 en utilisant le même robot que la Bibliothèque Royale de Suède. Considérant que l’internet ne connaît pas de frontières, la BnF s’est progressivement dotée d’une suite d’outils réalisés en collaboration avec les grandes institutions de mémoire au niveau mondial réunies au sein d’IIPC.

Les débuts de la collecte thématique des sites

Les outils de collecte à grande échelle ne sont pas toujours adaptés au dépistage de sites événementiels qui surgissent et disparaissent rapidement, ni à la capture profonde et exhaustive des sites dès qu’ils représentent un volume conséquent. Une prospection documentaire ciblée est donc nécessaire pour améliorer la qualité de la collection. Les sites sont alors signalés manuellement au robot en précisant à quelle fréquence et à quelle « profondeur » il doit les capturer.

Cette démarche a été choisie notamment par la Bibliothèque du Congrès qui a réalisé des collectes thématiques de sites de tous pays : il s’agissait de garder trace du regard international porté sur les événements majeurs de l’Histoire américaine récente, à l’instar des élections présidentielles de 2000 (767 sites) ou les attentats du 11 Septembre 2001 (30 000 sites).

Élections présidentielle et législatives de 2002

Un processus similaire a conduit la BnF à expérimenter un archivage thématique des sites électoraux en France (scrutins présidentiels et législatifs de 2002). Du 15 février au 15 juin 2002, 1900 sites différents ont été saisis en 6300 captures. L’archive constituée représente un volume de 530 Go et 12 millions de fichiers.

Le bilan technique réalisé après ce premier test a permis deux ans plus tard, pour les élections régionales et européennes de 2004, de mieux cibler l’effort, tout en conservant pour l’essentiel l’organisation du travail et les principes de sélection.

Les sites à archiver ont été sélectionnés par une équipe de bibliothécaires de la BnF. En 2004, ceux-ci ont reçu le renfort de quatre bibliothèques françaises partenaires du réseau des bibliothèques de dépôt légal imprimeur.

Le dépôt des sites

A la même époque, la Bibliothèque a expérimenté plusieurs formes de dépôt électroniques de sites afin de définir, en accord avec les producteurs, une méthode et des procédures propres à en limiter la charge, à la fois pour le déposant et pour l’organisme dépositaire. Plus d’une centaine d’éditeurs de sites ont été approchés et 36 ont finalement accepté de déposer leurs fichiers.

Une attention particulière a été portée au traitement des sites utilisant des passerelles documentaires pour accéder à des documents tels que des articles de presse, des texes, des images ou des vidéos, et pour lesquels le format des bases de données doit être modifié pour permettre leur dépôt.

Cependant, il a rapidement été décidé de ne pas suspendre – provisoirement – ces approches unitaires, et de réfléchir en priorité sur les méthodes qui seraient à même de collecter la plus grande masse de contenus nativement numériques. La BnF s’est donc concentrée sur la mise en œuvre du « modèle intégré » d’archivage. Il s’agissait de réaliser conjointement des collectes larges, « aveugles », du domaine français, conjuguées avec des collectées, plus profondes ou plus fréquentes, de sites sélectionnés par des bibliothécaires.

2004 - 2007 : la mise en œuvre du "modèle intégré"

Les collectes larges du domaine ".fr"

Afin d’accomplir sa mission de dépôt légal de l'internet de la façon la plus large possible, la BnF a signé en 2004, avec la fondation américaine Internet Archive (organisme à but non lucratif consacré à l'archivage du web), une convention de recherche portant sur la définition du « domaine national » pour une campagne d’archivage. C’est dans le cadre de cette convention, qu’Internet Archive a réalisé, au profit de la BnF, de 2004 à 2008, des « instantanés » annuels du domaine national français.

Ces collectes concernent de façon prioritaire les sites du domaine .fr. Des sites appartenant à des domaines génériques (.com, .org…) ont également pu être collectés, s’ils sont reliés par un lien hypertexte à un site du domaine .fr.

La signature en septembre 2007 d’une convention avec l’AFNIC (Association française pour le nommage internet en coopération) a en outre permis à la BnF de disposer de la liste exhaustive de tous les noms de domaines en .fr et .re (pour l’Ile de la Réunion).

Chacun de ces instantanés rassemble plusieurs centaines de millions de fichiers, représentant un poids croissant : de 2,5 téraoctets en 2004 à 19 téraoctets en 2008.

Les collectes ciblées

En 2004,  un réseau de « correspondants » du dépôt légal de l’internet a été constitué au sein de la BnF. Il s’agit d’un groupe de bibliothécaires ayant la charge de sélectionner des sites Internet dans leur domaine d’expertise scientifique.

Certains de ces sites ont vocation à être capturés dans la durée par la BnF, à une fréquence définie, dans le cadre de la collecte courante. D’autres sites font l’objet d’une campagne d’archivage ponctuelle (collectes projets), pour illustrer un événement ou une thématique particuliers.

En 2007, ce réseau regroupe une centaine de bibliothécaires, la quasi-totalité des départements thématiques et de dépôt légal de la BnF étant déjà représentés.

La stabilisation juridique de cette mission

Le 1er août 2006, la loi sur le Droit d’Auteur et les Droits Voisins dans la Société de l’Information (DADVSI) a mis en place le dépôt légal de l’internet. Cette loi, désormais codifiée dans le code du Patrimoine, a permis de donner une assise juridique solide et de définir les contours de la mission de la BnF en matière d’archivage patrimonial de l’internet

2007 - 2012 : la réalisation d'un cycle d'archivage complet

Une construction progressive

De 2006 à 2012, la BnF a progressivement construit un cycle documentaire complet, de la sélection à l’accès et la préservation, pour le traitement du dépôt légal de l’internet. Elle le fait en intégrant des outils open source utilisés par ses partenaires du consortium IIPC, ou moins fréquemment en utilisant des logiciels développés en interne.

Le noyau du système est le robot de collecte Heritrix. Il est utilisé en 2006-2007 pour moissonner les sites électoraux ; en 2007 il archive les sites demandés par les correspondants en collecte ciblée et de nouveaux projets sont lancés (Journaux personnels, Dailymotion). L’accès aux archives est assuré par la Wayback Machine et des interfaces sont mises à disposition dans les salles de lecture de la BnF dès 2008.

Les années suivantes amènent des développements en amont : c’est l’adoption du logiciel danois NetarchiveSuite, qui permet une meilleure planification et préparation des collectes et une meilleure gestion des flux de production. En 2010, NetarchiveSuite permet l'internalisation de la collecte large, désormais menées à un rythme annuel. En 2011 NetarchiveSuite autorise la collecte des sites à des fréquences variées (notamment une collecte quotidienne des sites d’actualité).

Enfin, de 2011 à début 2013, deux réalisations logicielles permettent de boucler un cycle bibliothéconomique complet : en amont, l’outil BCweb permet aux correspondants de saisir et de gérer les sites à collecter ; en aval, la mise en production de la filière « Dépôt légal du web » dans l’entrepôt de conservation SPAR (février 2013) autorise la préservation à long terme des données collectées.

La constitution d’un réseau national et international

En 2008, une nouvelle organisation est mise en place : le département de la Bibliothèque numérique, qui abritait l’équipe du dépôt légal de l'internet (pour la partie bibliothéconomique), disparaît. Les personnes en charge de cette activité rejoignent le département du Dépôt légal pour créer le service du Dépôt légal numérique. Les ingénieurs sont toujours au département des Systèmes d’information.

L’activité de coopération nationale s’étoffe au même moment. Un nombre croissant de partenaires est associé à la sélection des collectes de l’internet. Les campagnes d’archivage électoral successives voient ainsi participer de plus en plus de Bibliothèques de dépôt légal imprimeur. De quatre en 2004 et huit en 2007, elles sont dix-neuf en 2010 et vingt en 2012. Cela marque la reconnaissance de l’importance de la collecte des contenus web par les institutions patrimoniales.

Au niveau international, le consortium IIPC s’étend également, de 11 membres en 2003 à 43 en 2012. Le consortium, originellement un groupe d’experts techniquement très avancés, devient une institution de promotion et de diffusion des connaissances également ouverte aux débutants. Pour répondre à ses nouveaux besoins et satisfaire ses nouveaux membres, les activités d’IIPC s’orientent davantage vers la formation et la constitution collaborative de collections.

De nouveaux défis

En décembre 2011, la parution du décret d’application de la loi sur le dépôt légal de l'internet vient parachever le dispositif juridique et consolider la mission de la Bibliothèque. Un dispositif solide et puissant de collecte et de conservation du web est désormais en place.

Ce système doit désormais être étendu dans plusieurs directions pour mieux couvrir le champ de l’internet français, et mieux répondre aux besoins des chercheurs, des partenaires de la BnF, et de l’ensemble des citoyens :
  • En matière d’entrées de collection, il s’agit à la fois de collecter plus largement (en identifiant et capturant des sites français au-delà du .fr) et plus complètement (en archivant des contenus dont l’accès est soumis à autorisation, comme les sites de presse en ligne).
  • En matière d’accès, la BnF doit améliorer le signalement et la visibilité de ses collections. Elle doit mieux utiliser les outils de référencement de l’établissement (Catalogue général, data.bnf.fr). Elle doit aussi offrir aux chercheurs des outils innovants d’exploitation des sources web.
  • En matière de coopération, de nouveaux partenariats doivent être loués avec des acteurs du monde de la recherche comme de l’internet. La coopération avec les Bibliothèques de dépôt légal imprimeur doit s’enrichir d’un versant consultation, avec la mise en place d’un accès distant aux collections du dépôt légal de l'internet depuis leurs enceintes.

jeudi 6 mars 2014

Écouter la page

Contact

Département du dépôt légal
Service du dépôt légal numérique
Courriel : depot.legal.web@bnf.fr

Bibliographie

Bibliographie sélective sur le dépôt légal du web [fichier .pdf – 164 Ko – 13/11/13 – 10 p.]
Partagez