Soutenez
le Trésor national
Formulaire de recherche

Pour les professionnels

Formats de données pour la préservation numérique

Problématique

Le format des données numériques constitue un aspect essentiel de leur préservation. Certains formats ont des risques de pérennité plus élevés que d’autres, ce qui impose de déterminer le format le plus approprié au contenu que l’on souhaite préserver. Concurremment à ces exigences, le contexte juridico-légal associé à un contenu à préserver peut imposer certains formats ; par exemple, le format soumis par un déposant au titre du dépôt légal doit être accepté quel qu’il soit, car il correspond à la forme sous laquelle le contenu a fait l’objet d’une diffusion.

Les critères permettant d’évaluer la viabilité d’un format dans un contexte de préservation sont notamment :
  • L’utilisation large du format. Existe-t-il plusieurs logiciels permettant de lire ce format ? A-t-il déjà été choisi comme format d’archivage par d’autres institutions ?
  • Le caractère non propriétaire du format. Est jugé « exclusif » un format dont l’utilisation est régie par des brevets – qui souvent portent sur la construction de logiciels gérant leur format. Il faut également s’assurer que le format est ouvert, c’est-à-dire qu’il n’est pas lié à un logiciel ou une plateforme permettant de le lire ou de le manipuler.
  • L’ouverture du format. Un format dont les spécifications sont publiques a de meilleures garanties de durabilité ; en effet, dans le cas où le format cesse d’être maintenu par tout éditeur, il reste possible de reconstruire ex nihilo un outil permettant de lire ces formats. Si les spécifications du format sont en outre normalisées à l’ISO ou au W3C, c’est un gage supplémentaire de la large adoption du format.
  • La disponibilité d’outils de validation et d’analyse de ces formats.
  • Dans le cas où la BnF produit ces fichiers, la maîtrise des spécifications du format et des outils permettant de manipuler par l’institution.
Outre le format en lui-même, il faut être attentif à la manière dont il est utilisé, notamment :
  • La compression avec ou sans perte. Le format de compression doit lui-même évalué comme un format à part entière par rapport aux critères ci-dessus (caractère ouvert, disponibilité de plusieurs logiciels de compression, etc.).
  • La présence de mécanismes de protection de droits (DRM). Ce type de mécanisme inhibe généralement la recopie des fichiers, qui constitue une des conditions de leur préservation. Il est donc recommandé de préférer des fichiers sans DRM.

Utilisation à la BnF

La BnF a défini quatre niveaux de risque sur les formats, soit, du risque le plus élevé au plus réduit :

Catégorie de format Description
Stocké Format dont on ignore les caractéristiques techniques (non identifié) et pour lequel on n'assure que la conservation du train de bits.
Identifié Format dont on connaît les caractéristiques techniques (détectées par un outil d'identification) mais pour lequel aucun suivi et aucune trajectoire de migration / émulation ne sont prévus. Un format identifié devient maîtrisé ou connu si on met en œuvre une telle trajectoire.
Connu Format non maîtrisable pour lequel la BnF possède au moins un outil de référence, connaît les usages qui en sont faits, sur l'évolution duquel elle assure un suivi et une veille, et pour lequel elle a défini une trajectoire en vue de sa transformation en format maîtrisé ou de son émulation.
Maîtrisé Format maîtrisable pour lequel la BnF possède la documentation publiée et au moins un outil de référence, sur l'évolution duquel elle assure un suivi et une veille, et pour lequel elle a défini des contraintes d'application vis-à-vis des producteurs.

Les formats utilisés dans SPAR

La liste des formats de ce tableau présente l'usage au dernier trimestre 2013. Ces formats sont l'objet d'une veille permanente et sont susceptibles de changer avec l'évolution des technique.

Filière Format Catégorie Commentaire
Numérisation de conservation de l'écrit et des images fixes TIFF 6.0 24 bits couleur
TIFF 6.0 8 bits niveaux de gris
TIFF 6.0 Noir et blanc
compressé CCITT G4
Maîtrisé Ces formats sont ceux que la BnF recommande dans le cadre de ses marchés de numérisation.
Le JPEG est conservé pour des raisons historiques, mais le TIFF couleur 400 dpi sans compression est le seul format actuellement utilisé.
Le format ALTO est utilisé pour l'OCR et le format TDMNum pour structurer les tables de matières.
Les livres numériques produits lors de la numérisation doivent être conformes au format EPUB 2.0.
JPEG Maîtrisé
ALTO BnF Maîtrisé
TDMNum Maîtrisé
EPUB 2.0 Connu
Numérisation de l'audiovisuel Audio: WAV LPCM 16/44,1, 16/48, 24/48 et 24/96. WAV-RF64 LPCM 24/96, 24/192 Maîtrisé Seules certaines profondeurs d'encodage et fréquences d'échantillonnage sont acceptées.
La vidéo numérisée doit être au format MPEG-2. La BnF maîtrise plus particulièrement certains profils.
La numérisation des pochettes et du matériel d'accompagnement du document doit être conforme aux exigences de la numérisation de l'écrit et des images fixes énoncé plus haut.
Vidéo: MPEG-2 Connu
Vidéo: MPEG-2 MP@ML 4:2:0, 6 ou 12 Mb/s MPEG-2 MP@HL 4:2:0, 25 Mb/s Maîtrisé
Images: TIFF 6.0 JPEG Connu
Archives de l'internet ARC 1.0
ARC 1.1
Connu Le fichier conteneur doit être conforme au format ARC, version 1.0 et 1.1. Les fichiers contenus dans un fichier ARC sont tous acceptés.

Analyse des formats

Afin d’être en mesure de vérifier que les fichiers reçus sont conformes aux exigences de la BnF, il convient de les valider et d’extraire des informations techniques sur l’utilisation qui en est faite.

Le processus d’analyse des fichiers se décompose en plusieurs étapes :
  • Identifier : l’identification permet de déterminer pour un fichier analysé quel est son format ainsi que la version de ce format. Si le processus d’identification réussit, le fichier est « identifié » (cf. grille ci-dessus). Les outils utilisés par la BnF sont la commande UNIX File et Magic mime type identifier.
  • Valider : la validation permet de vérifier que le fichier est bien conforme au format annoncé par le processus d’identification, et de préciser, le cas échéant, le profil de format utilisé. Les outils utilisés par la BnF sont JHOVE (Images, HTML), Mediainfo (vidéo et son), JHOVE 2 (archives de l'internet), Xerces2 (fichiers XML).
  • Caractériser : la caractérisation permet d’extraire les caractéristiques du fichier. Les outils utilisés par la BnF sont JHOVE (Images, XML, HTML), Mediainfo (vidéo et son), JHOVE2 (archives de l'internet)
  • Evaluer : à l’issue de ce processus, le fichier est-il conforme à nos exigences ? Pour chaque contenu livré, SPAR vérifie la conformité avec les exigences définies par la chaîne.

Veille sur les formats : l'intérêt des répertoires de formats

Comme toutes les autres branches de la préservation du numérique, la connaissance et la veille sur les formats est une activité complexe qui doit être effectuée de manière collaborative. À ce titre, la BnF suit avec intérêt les développements des répertoires de formats PRONOM et UDFR.

jeudi 21 novembre 2013

Partagez