Soutenez la BnF
Formulaire de recherche

Pour les professionnels

Formats de données pour la préservation numérique

Problématique

Le format des données numériques constitue un aspect essentiel de leur préservation. Certains formats ont des risques de pérennité plus élevés que d’autres, ce qui impose de déterminer le format le plus approprié au contenu que l’on souhaite préserver. Concurremment à ces exigences, le contexte juridico-légal associé à un contenu à préserver peut imposer certains formats ; par exemple, le format soumis par un déposant au titre du dépôt légal doit être accepté quel qu’il soit, car il correspond à la forme sous laquelle le contenu a fait l’objet d’une diffusion.

Les critères permettant d’évaluer la viabilité d’un format dans un contexte de préservation sont notamment :
  • L’utilisation large du format. Existe-t-il plusieurs logiciels permettant de lire ce format ? A-t-il déjà été choisi comme format d’archivage par d’autres institutions ?
  • Le caractère non propriétaire du format. Est jugé « exclusif » un format dont l’utilisation est régie par des brevets – qui souvent portent sur la construction de logiciels gérant leur format. Il faut également s’assurer que le format est ouvert, c’est-à-dire qu’il n’est pas lié à un logiciel ou une plateforme permettant de le lire ou de le manipuler.
  • L’ouverture du format. Un format dont les spécifications sont publiques a de meilleures garanties de durabilité ; en effet, dans le cas où le format cesse d’être maintenu par tout éditeur, il reste possible de reconstruire ex nihilo un outil permettant de lire ces formats. Si les spécifications du format sont en outre normalisées à l’ISO ou au W3C, c’est un gage supplémentaire de la large adoption du format.
  • La disponibilité d’outils de validation et d’analyse de ces formats.
  • Dans le cas où la BnF produit ces fichiers, la maîtrise, par l'institution, des spécifications du format et des outils permettant de le manipuler.
Outre le format en lui-même, il faut être attentif à la manière dont il est utilisé, notamment :
  • La compression avec ou sans perte. Le format de compression doit être lui-même évalué comme un format à part entière par rapport aux critères ci-dessus (caractère ouvert, disponibilité de plusieurs logiciels de compression, etc.).
  • La présence de mécanismes de protection de droits (DRM). Ce type de mécanisme inhibe généralement la recopie des fichiers, qui constitue une des conditions de leur préservation. Il est donc recommandé de préférer des fichiers sans DRM.

Utilisation à la BnF

La BnF a défini quatre niveaux de risque sur les formats, soit, du risque le plus élevé au plus réduit :

Catégorie de format Description
Stocké Format dont on ignore les caractéristiques techniques (non identifié) et pour lequel on n'assure que la conservation du train de bits.
Identifié Format dont on connaît les caractéristiques techniques (détectées par un outil d'identification) mais pour lequel aucun suivi et aucune trajectoire de migration / émulation ne sont prévus. Un format identifié devient maîtrisé ou connu si on met en œuvre une telle trajectoire.
Connu Format non maîtrisable pour lequel la BnF possède au moins un outil de référence, connaît les usages qui en sont faits, sur l'évolution duquel elle assure un suivi et une veille, et pour lequel elle a défini une trajectoire en vue de sa transformation en format maîtrisé ou de son émulation.
Maîtrisé Format maîtrisable pour lequel la BnF possède la documentation publiée et au moins un outil de référence, sur l'évolution duquel elle assure un suivi et une veille, et pour lequel elle a défini des contraintes d'application vis-à-vis des producteurs.

Les formats utilisés dans SPAR

La liste des formats de ce tableau présente l'usage au dernier trimestre 2015. Ces formats sont l'objet d'une veille permanente et sont susceptibles de changer avec l'évolution des techniques.

Filière Format Catégorie Commentaire
Numérisation de conservation de l'écrit et des images fixes TIFF 6.0 24 bits couleur
TIFF 6.0 8 bits niveaux de gris
TIFF 6.0 Noir et blanc
compressé CCITT G4
Maîtrisé Ces formats sont ceux que la BnF recommande dans le cadre de ses marchés de numérisation.
Le JPEG est conservé pour des raisons historiques. Le TIFF couleur 400 dpi sans compression est encore utilisé sur certains marchés mais la BnF exige désormais du JPEG 2000 comme format de numérisation de conservation pour ses nouveaux marchés.
Le format ALTO est utilisé pour l’OCR et le format TDMNum pour structurer les tables des matières.
Les livres numériques produits lors de la numérisation doivent être conformes au format EPUB 2.0 ou 3.0 pour les marchés les plus récents.
JPEG Connu
JPEG 2000 24 bits couleur compressé sans perte visuelle (lossy, limité à un facteur prédéfini)
JPEG 2000 8 bits niveaux de gris compressé sans perte (lossless)
JPEG 2000 8 bits niveaux de gris compressé sans perte visuelle (lossy, limité à un facteur prédéfini)
Maîtrisé
ALTO BnF Maîtrisé
TDMNum Maîtrisé
EPUB 2.0
EPUB 3.0
Connu
Numérisation de l'audiovisuel Audio: WAV LPCM 16/44,1, 16/48, 24/48 et 24/96. WAV-RF64 LPCM 24/96, 24/192 Maîtrisé Seules certaines profondeurs d'encodage et fréquences d'échantillonnage sont acceptées.
La vidéo numérisée doit être au format MPEG-2. La BnF maîtrise plus particulièrement certains profils.
La numérisation des pochettes et du matériel d'accompagnement du document doit être conforme aux exigences de la numérisation de l'écrit et des images fixes énoncé plus haut.
Vidéo: MPEG-2 Connu
Vidéo: MPEG-2 MP@ML 4:2:0, 6 ou 12 Mb/s MPEG-2 MP@HL 4:2:0, 25 Mb/s Maîtrisé
Images: TIFF 6.0 Connu
Dépôt légal automatique (Archives de l'internet) ARC 1.0
ARC 1.1
ARC 2.0
Connu Le fichier conteneur doit être conforme au format ARC, version 1.0 et 1.1 ou 2.0.
Les fichiers contenus dans un fichier ARC sont tous acceptés.
Depuis fin 2014, le dépôt légal de l’internet utilise le format WARC comme format conteneur.
Le fichier conteneur doit être conforme au format WARC version 1.0. Les fichiers contenus dans un fichier WARC sont tous acceptés.
WARC 1.0 Connu
Dépôt légal négocié EPUB 2.0
EPUB 3.0
Connu ou identifié La BnF restreint les formats qui peuvent être utilisés dans le cadre de cette filière, mais ne peut prescrire la façon dont ils sont utilisés par le producteur, hors l’absence de DRM. Selon les cas, le format est détecté comme identifié ou connu.
Le PDF/X est utilisé pour le dépôt légal de substitution des affiches de grand format.
PDF Connu ou identifié
PDF/X Connu
Production administrative Microsoft Word
Microsoft Excel
Microsoft Powerpoint
OpenDocument Text
Identifié Les documents issus de la production administrative de la BnF sont migrés sous format PDF (Word, OpenDocument et Powerpoint) ou sous format OpenDocument Spreadsheet (Excel) ; les fichiers originaux sont aussi conservés.
PDF
PDF/A
Connu
Acquisitions et dons de documents numériques TIFF 6.0 24 bits couleur non compressé
TIFF 6.0 24 bits niveaux de gris non compressé
TIFF 6.0
Maîtrisé, connu ou identifié La BnF restreint les formats qui peuvent être utilisés dans le cadre de cette filière, mais ne peut complètement prescrire la façon dont ils sont utilisés par le producteur. Selon les cas, le format est détecté comme identifié ou connu, voire maîtrisé si le producteur utilise les spécifications de la BnF pour la numérisation de conservation.
JPEG 8 ou 24 bits
JPEG
Maîtrisé, connu ou identifié
PDF Connu ou identifié

Analyse des formats

Afin d’être en mesure de vérifier que les fichiers reçus sont conformes aux exigences de la BnF, il convient de les valider et d’extraire des informations techniques sur l’utilisation qui en est faite.

Le processus d’analyse des fichiers se décompose en plusieurs étapes :
  • Identifier. L’identification permet de déterminer pour un fichier analysé quel est son format ainsi que la version de ce format. Si le processus d’identification réussit, le fichier est « identifié » (cf. grille ci-dessus). Les outils utilisés par la BnF sont la commande UNIX File et Magic mime type identifier.
  • Valider. La validation permet de vérifier que le fichier est bien conforme au format annoncé par le processus d’identification, et de préciser, le cas échéant, le profil de format utilisé. Les outils utilisés par la BnF sont JHOVE (Images, HTML, PDF, bureautique), Mediainfo (vidéo et son), JWAT-tools (archives de l'internet), Xerces2 (fichiers XML), Epubcheck (livres numériques au format EPUB).
  • Caractériser. La caractérisation permet d’extraire les caractéristiques du fichier. Les outils utilisés par la BnF sont JHOVE (Images, XML, HTML), Mediainfo (vidéo et son), JWAT-Tools (archives de l'internet), Tika (PDF, bureautique), Epubcheck (livres numériques au format EPUB).
  • Evaluer. A l’issue de ce processus, le fichier est-il conforme à nos exigences ? Pour chaque contenu livré, SPAR vérifie la conformité avec les exigences définies par la chaîne.

Veille sur les formats : l'intérêt des répertoires de formats

Comme toutes les autres branches de la préservation du numérique, la connaissance et la veille sur les formats est une activité complexe qui doit être effectuée de manière collaborative. À ce titre, la BnF suit avec intérêt les développements des répertoires de formats PRONOM et UDFR.

jeudi 7 janvier 2016

Partagez