Pour les professionnels

Applications pour le dépôt légal du web

La réalisation d’un cycle complet d’archivage du web à la BnF a nécessité l’adaptation des pratiques bibliothéconomiques aux technologies et à l’économie du web. Les ressources et les outils changent de forme, mais le flux et les étapes du traitement restent les mêmes. L’accent est mis sur la fluidité, l’efficacité et la rapidité de mise à disposition des collections aux chercheurs. Les applications suivantes sont présentées dans leur ordre d’utilisation dans le flux de production.

Schéma général des flux de production

Schéma général des flux de production

BnF Collecte du web

L'application BnF Collecte du web (BCweb) est destinée à gérer des ensembles de sites web devant être capturés, conservés et communiqués par la BnF. Cette application permet aux bibliothécaires de la BnF ou à ses partenaires de sélectionner et de gérer des listes de sites à collecter. Pour chaque site, le gestionnaire doit saisir leur adresse URL, des paramètres techniques et une description documentaire. Les listes de sites sélectionnés sont ensuite transmises selon une périodicité adaptée aux robots de collecte de la BnF pour qu'ils soient archivés.

BCweb regroupe les références de tous les sites faisant l'objet de collectes ciblées : des collectes régulières et en profondeur d'un nombre limité de sites choisis en fonction de leur thème (la littérature, le développement durable…) ou de leur rapport à un événement (comme les élections ou les Jeux Olympiques).

NAS_preload

Cette application permet de rassembler et de préparer les listes des noms de domaines faisant l’objet de collectes larges. Plusieurs sources, notamment les listes du .fr et du .re (fournies par l’AFNIC) et du .nc (fournie par l’OPT-NC), sont versées dans l’outil et dé-dupliquées. L’outil réalise ensuite des tests pour vérifier si les noms de domaine ont une existence en ligne (vérification de l’adresse DNS) et quels sont les codes http renvoyés (codes 200, 404, etc.). Seuls les domaines actifs sont transmis aux robots de collecte. Cet outil permet ainsi des statistiques calculant le taux d’activité réelle des noms de domaine français sur l’internet.

NetarchiveSuite

Cet outil permet aux équipes chargées de l’archivage du web de planifier les collectes, de les surveiller et de faire le contrôle qualité des archives constituées. Ce système est souple et convient aussi bien à des ensembles de très petites tailles (collectes projets) qu’à la gestion de plusieurs millions de noms de domaines (collectes larges). Il est capable de superviser plusieurs dizaines de serveurs de collecte simultanément.

Ce logiciel libre a été originellement développé par l’organisation netarchive.dk (regroupant la bibliothèque nationale du Danemark et la bibliothèque nationale et universitaire d’Aarhus). La BnF, ainsi que les BN d’Autriche, d'Espagne et d’Estonie ont ensuite rejoint la communauté de développement.

Heritrix

Pièce maîtresse du flux de production, Heritrix est le robot de collecte de la BnF. Il s’agit d’un logiciel libre, extensible et adaptable, originellement développé par Internet Archive et soutenu par les institutions membres du consortium IIPC. Ce robot propose plusieurs types de filtres, d’extracteurs et de processus modulaires selon les besoins de collectes. Des extensions peuvent être ajoutées par des scripts logiciels spécifiques. La BnF poursuit actuellement des travaux de migration vers la dernière version du robot, Heritrix 3, en remplacement de la version 1 datée de 2010.


En fonction des besoins, il peut fonctionner isolément ou comme module intégré à un outil de pilotage des collectes comme NetarchiveSuite. Chaque job (lot de collecte) réunit les principaux éléments suivants :
  • une liste d’URL de départ ;
  • un périmètre (nombre de fichiers collectés, domaine seul ou sous-domaine également, etc.) ;
  • une série de filtres pour exclure des URL indésirables ;
  • plusieurs extracteurs (pour récupérer les URL à partir de HTML, CSS, Javascript).
Heritrix stocke ensuite les fichiers collectés sur le web au sein de fichiers ARC ou WARC.

NAS_qual

Cet outil met à disposition des équipes du dépôt légal de l’internet plusieurs séries d’indicateurs de production : poids des données, nombre d’URL collectées, code réponse HTTP, type MIME, liste des plus gros domaines, etc. Il s’appuie sur les recommandations du rapport technique « Statistiques et indicateurs de qualité pour l'archivage du web » (ISO/TR 14873).

Ces chiffres sont analysés et mis à la disposition des chercheurs dans l’Observatoire du dépôt légal.

Processus d’indexation

Une succession de scripts internes permet de traiter les fichiers containeurs (ARC ou WARC), et de générer des fichiers d’analyse et d’indexation DAT et CDX. Les données collectées sont alors disponibles pour la consultation dans la salle de lecture.

Wayback Machine

Cette application développée par Internet Archive a ensuite été largement adoptée par de nombreuses bibliothèques nationales. Elle permet une navigation spatiale et temporelle dans les archives : elle permet de naviguer sur les sites archivés comme à l’époque où ils ont été collectés, et permet aussi la comparaison de sites et de pages au fil du temps.

La BnF est un membre contributeur du projet de développement de ce logiciel libre.

SPAR

SPAR est l’entrepôt sécurisé de données numériques à la BnF. Les archives du web y sont progressivement versées depuis 2013. Cet entrepôt assure l’intégrité physique des fichiers versés, ainsi qu’une connaissance très fine des données. SPAR permet ainsi de surveiller l’évolution des formats des fichiers qui y sont préservés, pour identifier les risques d’obsolescence. Les informations disponibles permettent ensuite de choisir les meilleures stratégies de préservation : migration ou émulation.

jeudi 23 mars 2017

Écouter la page

Contact

département du Dépôt légal
Service du dépôt légal numérique
Courriel : depot.legal.web@bnf.fr

Bibliographie

Voir aussi

Outils open source sur le site IIPC
Partagez