Pour les professionnels

Formats de données pour la préservation numérique

Problématique

Le format des données numériques constitue un aspect essentiel de leur préservation. Certains formats ont des risques de pérennité plus élevés que d’autres, ce qui impose de déterminer le format le plus approprié au contenu que l’on souhaite préserver. Concurremment à ces exigences, le contexte juridico-légal associé à un contenu à préserver peut imposer certains formats ; par exemple, le format soumis par un déposant au titre du dépôt légal doit être accepté quel qu’il soit, car il correspond à la forme sous laquelle le contenu a fait l’objet d’une diffusion.

Les critères permettant d’évaluer la viabilité d’un format dans un contexte de préservation sont notamment :
  • L’utilisation large du format. Existe-t-il plusieurs logiciels permettant de lire ce format ? A-t-il déjà été choisi comme format d’archivage par d’autres institutions ?
  • Le caractère non propriétaire du format. Est jugé « exclusif » un format dont l’utilisation est régie par des brevets – qui souvent portent sur la construction de logiciels gérant leur format. Il faut également s’assurer que le format est ouvert, c’est-à-dire qu’il n’est pas lié à un logiciel ou une plateforme permettant de le lire ou de le manipuler.
  • L’ouverture du format. Un format dont les spécifications sont publiques a de meilleures garanties de durabilité ; en effet, dans le cas où le format cesse d’être maintenu par tout éditeur, il reste possible de reconstruire ex nihilo un outil permettant de lire ces formats. Si les spécifications du format sont en outre normalisées à l’ISO ou au W3C, c’est un gage supplémentaire de la large adoption du format.
  • La disponibilité d’outils de validation et d’analyse de ces formats.
  • Dans le cas où la BnF produit ces fichiers, la maîtrise, par l'institution, des spécifications du format et des outils permettant de le manipuler.
Outre le format en lui-même, il faut être attentif à la manière dont il est utilisé, notamment :
  • La compression avec ou sans perte. Le format de compression doit être lui-même évalué comme un format à part entière par rapport aux critères ci-dessus (caractère ouvert, disponibilité de plusieurs logiciels de compression, etc.).
  • La présence de mécanismes de protection de droits (DRM). Ce type de mécanisme inhibe généralement la recopie des fichiers, qui constitue une des conditions de leur préservation. Il est donc recommandé de préférer des fichiers sans DRM.

Utilisation à la BnF

La BnF a défini quatre niveaux de risque sur les formats, soit, du risque le plus élevé au plus réduit :

Catégorie de format Description
Stocké Format dont on ignore les caractéristiques techniques (non identifié) et pour lequel on n'assure que la conservation du train de bits.
Identifié Format dont on connaît les caractéristiques techniques (détectées par un outil d'identification) mais pour lequel aucun suivi et aucune trajectoire de migration / émulation ne sont prévus. Un format identifié devient maîtrisé ou connu si on met en œuvre une telle trajectoire.
Connu Format non maîtrisable pour lequel la BnF possède au moins un outil de référence, connaît les usages qui en sont faits, sur l'évolution duquel elle assure un suivi et une veille, et pour lequel elle a défini une trajectoire en vue de sa transformation en format maîtrisé ou de son émulation.
Maîtrisé Format maîtrisable pour lequel la BnF possède la documentation publiée et au moins un outil de référence, sur l'évolution duquel elle assure un suivi et une veille, et pour lequel elle a défini des contraintes d'application vis-à-vis des producteurs.

Les formats utilisés dans SPAR

Pour chaque filière, les experts en préservation numérique de la BnF ont établi une liste de formats de données qui peuvent être utilisés dans SPAR. Ces formats sont l'objet d'une veille permanente et sont susceptibles de changer avec l'évolution des techniques.
Télécharger

Liste des formats de données utilisés dans SPAR [fichier .pdf – 49 Ko – 16/04/16 – 2 p.] (dernier trimestre 2015)

Analyse des formats

Afin d’être en mesure de vérifier que les fichiers reçus sont conformes aux exigences de la BnF, il convient de les valider et d’extraire des informations techniques sur l’utilisation qui en est faite.

Le processus d’analyse des fichiers se décompose en plusieurs étapes :
  • Identifier. L’identification permet de déterminer pour un fichier analysé quel est son format ainsi que la version de ce format. Si le processus d’identification réussit, le fichier est « identifié » (cf. grille ci-dessus). Les outils utilisés par la BnF sont la commande UNIX File et Magic mime type identifier.
  • Valider. La validation permet de vérifier que le fichier est bien conforme au format annoncé par le processus d’identification, et de préciser, le cas échéant, le profil de format utilisé. Les outils utilisés par la BnF sont JHOVE (Images, HTML, PDF, bureautique), Mediainfo (vidéo et son), JWAT-tools (archives de l'internet), Xerces2 (fichiers XML), Epubcheck (livres numériques au format EPUB).
  • Caractériser. La caractérisation permet d’extraire les caractéristiques du fichier. Les outils utilisés par la BnF sont JHOVE (Images, XML, HTML), Mediainfo (vidéo et son), JWAT-Tools (archives de l'internet), Tika (PDF, bureautique), Epubcheck (livres numériques au format EPUB).
  • Evaluer. A l’issue de ce processus, le fichier est-il conforme à nos exigences ? Pour chaque contenu livré, SPAR vérifie la conformité avec les exigences définies par la chaîne.

Veille sur les formats : l'intérêt des répertoires de formats

Comme toutes les autres branches de la préservation du numérique, la connaissance et la veille sur les formats est une activité complexe qui doit être effectuée de manière collaborative. À ce titre, la BnF suit avec intérêt les développements des répertoires de formats PRONOM et UDFR.

mercredi 6 avril 2016

Partagez