Formats de données pour la préservation numérique

Dans le cadre de ses missions de collecte, conservation, enrichissement et communication du patrimoine documentaire national, la Bibliothèque nationale de France (BnF) a développé des techniques appropriées de conservation curative ou préventive. De même qu’elle surveille l’état de ses collections physiques, elle réalise une veille technologique sur les formats d’encodage des fichiers.
 

Pourquoi des formats de données pour la préservation numérique ?

La donnée numérique étant stockée sur support sous une forme binaire – une série de « 0 » et de « 1 » –, la préservation numérique consiste à garantir à la fois l’intégrité des données (préservation du train d’octets) et l’accessibilité, la compréhensibilité et l’utilisabilité des données pour ses usagers (préservation « sémantique »). La connaissance du format d’encodage est une condition nécessaire si ce n’est suffisante de la transformation des données en information accessible, compréhensible et utilisable par les usagers.

Au-delà des quelques dizaines de formats les plus courants, la variété de formats utilisés par les producteurs de données est considérable, particulièrement dans les communautés scientifiques spécialisées. Une bonne partie d’entre eux est susceptible de se retrouver dans les collections numériques des institutions de conservation. La diversité des formats augmente d’autant les risques pesant sur les capacités de telles institutions à restituer correctement leurs collections. Parmi ces risques multiples, on peut citer :

  • l’incapacité à identifier le format et donc l’outil de restitution adapté ;
  • la disparition de logiciels de lecture ou leur indisponibilité en raison de leur coût, de la politique de l’entreprise qui les développe ou de leur mode d’achat ;
  • l’utilisation d’outils inadaptés ou mal employés donnant lieu à une restitution non fidèle, ou à la perte d’information involontaire à la suite d’une migration mal maîtrisée.
Afin de réduire ces risques et l’investissement de l’institution (achat et maintenance de matériel, de logiciels, de normes, développement et maintien de compétences, etc.), il est donc souhaitable, autant que faire se peut, de se limiter à une liste de formats maîtrisés.
 
  • En tant qu’institution commanditaire, la BnF veille à choisir avec soin les formats dans lesquels elle demande la production de données.
  • Lorsque la BnF acquiert des données de producteurs, elle négocie la remise de celles-ci dans un format maîtrisé.
  • Lorsque la BnF hérite de données dans un format qu’elle ne peut choisir, elle envisage en cas de risque avéré portant sur elles de les convertir dans un format maîtrisé.
     

La politique de la BnF sur les formats de données pour la préservation

Comme toutes les autres branches de la préservation numérique, la connaissance et la veille sur les formats est une activité complexe qui doit être effectuée de manière collaborative. À ce titre, la BnF a mis en place un groupe de travail sur les formats de données pour la préservation numérique qui assure une veille sur son domaine de compétence. Ce groupe a élaboré, de 2018 à 2021, la politique de la BnF sur les formats de données pour la préservation.
 

Politique de la BnF sur les formats de données pour la préservation
 
Le document  Formats de données pour la préservation à long terme : la politique de la BnF, élaboré par le groupe de travail sur les formats de données pour la préservation numérique, a été publié dans une version révisée en octobre 2021 sur la plateforme HAL.

Ce document a vocation à être périodiquement revu à mesure de la progression du groupe de travail sur les formats.

 

 

la mise en œuvre dans SPAR

Le système de préservation et d’archivage réparti (SPAR) applique cette politique en définissant quatre niveaux de connaissance sur les formats, soit, du risque le plus élevé au plus réduit

Catégorie de format Description
Stocké
 
Format dont on ignore les caractéristiques techniques (non identifié) et pour lequel on n’assure que la conservation du train de bits
Identifié
 
Format dont on connaît les caractéristiques techniques (détectées par un outil d’identification) mais pour lequel aucun suivi et aucune trajectoire de migration / émulation ne sont prévus. Un format identifié devient maîtrisé ou connu si on met en œuvre une telle trajectoire
Connu
Format non maîtrisable pour lequel la BnF possède au moins un outil de référence, connaît les usages qui en sont faits, sur l’évolution duquel elle assure un suivi et une veille, et pour lequel elle a défini une trajectoire en vue de sa transformation en format maîtrisé ou de son émulation.
Maîtrisé
Format maîtrisable pour lequel la BnF possède la documentation publiée et au moins un outil de référence, sur l’évolution duquel elle assure un suivi et une veille, et pour lequel elle a défini des contraintes d’application vis-à-vis des producteurs.

Pour chaque filière, les experts en préservation numérique de la BnF ont établi une liste de formats de données qui peuvent être utilisés dans SPAR. Ces formats sont l’objet d’une veille permanente et sont susceptibles de changer avec l’évolution des techniques.