Pour les professionnels

Formats de fichiers au dépôt légal du web

Pour la collecte, l’accès et la préservation des collections du dépôt légal de l’internet, la BnF a choisi d’utiliser des formats normalisés, ou à défaut des standards communément employés par la communauté des institutions patrimoniales et de recherche. Cela permet à la Bibliothèque de travailler avec ses partenaires au développement commun d’outils et de bonnes pratiques, de mieux assurer la maintenance de ces formats sur le long terme, et de garantir l’interopérabilité des données et des métadonnées.

Des formats pour le stockage

ARC

Le format ARC (ARC pour ARChive) est un format conteneur créé en 1996 pour faciliter la collecte et le stockage des données hétérogènes présentes sur l’internet (pages HTML, images, fichiers audio ou vidéo, etc.). Un fichier ARC consiste en la concaténation d’un nombre variable d’« enregistrements ARC » (ARC records). Chaque enregistrement contient lui-même un fichier collecté sur l’internet ainsi que des métadonnées associées (URL, date de collecte, type MIME, poids, etc.).
Le format ARC peut comprendre tout type de fichier web, quel que soit son format. Il a été conçu pour réduire le nombre de fichiers que les outils de collecte, d’indexation, d’accès et de préservation doivent manipuler. On peut ainsi assimiler un format ARC à un carton d’archive où on peut ranger un nombre variable d’objets. Les fichiers ARC peuvent être eux-mêmes compressés. La compression GZIP est utilisée à la BnF.

Plus précisément, chaque fichier ARC contient : un en-tête décrivant le fichier ARC lui-même, suivi par une séquence d’enregistrements contenant chacune des métadonnées, le code réponse HTTP et le fichier collecté.

Exemple de fichier en format ARC

Exemple de fichier en format ARC

WARC

La BnF, comme la plupart de ses partenaires membres du consortium IIPC, a choisi d’adopter le format WARC (Web ARChive) en remplacement du format ARC utilisé jusqu'en 2014.

Malgré ses qualités (simplicité, robustesse), le format ARC comporte en effet des fonctionnalités limitées en matière de conservation à long terme et n’offre qu’un nombre restreint de métadonnées. C’est pourquoi une évolution vers plus de richesse, le format WARC, a été élaboré par un groupe de travail IIPC et adopté par la BnF en 2014.

Le format WARC est un format normalisé à l’ISO (ISO 28500:2009) depuis 2009. Le processus de normalisation a été piloté par la BnF, au sein du Comité Technique 46 de l’ISO (Information et Documentation), Sous-comité 4 (Interopérabilité technique). Cette normalisation offre des garanties de stabilité du format et de pérennité ; elle est également propice à une large adoption du format et à une meilleure interopérabilité entre les collections. Enfin, elle contribue à ce que l'archivage du web soit partie intégrante des activités ordinaires des organismes de préservation du patrimoine.

Le format WARC est plus riche que son prédécesseur : il comporte huit types d’enregistrements. Ceux-ci offrent une meilleure documentation des processus de collecte et de déduplication. Ils permettent aussi de gérer des migrations de formats des fichiers collectés sur le web et empaquetés au sein des fichiers WARC. Voici les types d’enregistrement utilisés à la BnF :

  • warcinfo record : sert à décrire le contexte de production de ce fichier (environnement technique de production, institution responsable, etc.) ;
  • response record : contient les réponses reçues par le robot (fichier collecté sur le web et les métadonnées comme la date de collecte, etc.) ;
  • resource record : permet de stocker tous les fichiers de configuration, les rapports et les journaux de collecte.

Chaque enregistrement WARC dispose enfin d’un identifiant unique permettant d’établir des liens entre enregistrements.

Exemple de page HTML collectée et encapsulée au format WARC

Exemple de page HTML collectée et encapsulée au format WARC

Des formats pour l’indexation et l’analyse

Durant le processus d’indexation, les fichiers ARC ou WARC sont analysés pour constituer des fichiers d’index :
  • les fichiers DAT sont des extraits des fichiers ARC, contenant toutes les métadonnées relatives aux fichiers capturés sur le web, mais sans les fichiers eux-mêmes. Ils sont donc moins volumineux que les fichiers ARC, et peuvent être utilisés afin de réaliser des analyses à grande échelle sur les collections;
  • les fichiers CDX sont des fichiers d’index. Dans un CDX, chaque fichier collecté sur le web est décrit par une ligne indiquant notamment son URL, sa date de capture, sa taille, son type MIME, le nom du fichier conteneur (ARC ou WARC) où il est copié, et l’endroit au sein de ce fichier conteneur où il est copié. Les fichiers CDX sont utilisés par la Wayback Machine pour permettre l’accès et la navigation dans les archives.

Des formats pour la préservation

Lors de leur versement dans l’entrepôt de préservation numérique SPAR, chaque fichier versé reçoit :
  • un identifiant unique ARK (Archival Resource Key) ;
  • un fichier XML METS qui l’accompagne et qui rassemble l’ensemble des métadonnées utiles à sa préservation. Au sein des fichiers METS, les métadonnées sont décrites en utilisant le vocabulaire de préservation PREMIS.

Des indicateurs normalisés à l’ISO

L’archivage du web représentant pour les bibliothèques et autres institutions patrimoniales une activité nouvelle, elles ne disposaient pas de statistiques, d’indicateurs et de méthodes de comptage internationalement reconnus permettant d’évaluer la nature et la volumétrie de leurs collections ; d’évaluer la performance de leurs processus de collecte, d’accès ou de préservation ; et enfin, de réaliser des comparaisons entre institutions.

La reconnaissance de ce manque a amené la BnF à lancer au sein de l’ISO un groupe de travail sur les "Statistiques et indicateurs de qualité pour l'archivage du web". Ce groupe de travail, réunissant des représentants de diverses bibliothèques nationales et régionales d’Europe, a été monté au sein du Comité Technique 46 de l’ISO (Information et Documentation), Sous-comité 8 (Qualité - Statistiques et évaluation de la performance).

Lancé fin 2009, ce groupe a produit en 2013 un rapport technique (ISO/TR 14873) qui poursuit trois objectifs :
  • faire mieux connaître l’archivage du web en fournissant à la communauté des institutions patrimoniales et de recherche des informations sur le contexte et les principes de l’archivage du web ;
  • fournir une liste normalisée de statistiques et d’indicateurs, permettant de mesurer, d’évaluer et de comparer des collections d’archives du web ;
  • d’enrichir à terme la liste plus générale de statistiques et d’indicateurs utilisés dans le monde des bibliothèques et de la documentation.

mardi 7 avril 2015

Écouter la page

Contact

département du Dépôt légal
Service du dépôt légal numérique
Courriel : depot.legal.web@bnf.fr

Bibliographie

Bibliographie complète sur le dépôt légal du web [fichier .pdf – 261 Ko – 22/10/14 – 10 p.]
Partagez