Formats de données pour la préservation numérique
Pourquoi des formats de données pour la préservation numérique ?
La donnée numérique étant stockée sur support sous une forme binaire – une série de « 0 » et de « 1 » –, la préservation numérique consiste à garantir à la fois l’intégrité des données (préservation du train d’octets) et l’accessibilité, la compréhensibilité et l’utilisabilité des données pour ses usagers (préservation « sémantique »). La connaissance du format d’encodage est une condition nécessaire si ce n’est suffisante de la transformation des données en information accessible, compréhensible et utilisable par les usagers.
Au-delà des quelques dizaines de formats les plus courants, la variété de formats utilisés par les producteurs de données est considérable, particulièrement dans les communautés scientifiques spécialisées. Une bonne partie d’entre eux est susceptible de se retrouver dans les collections numériques des institutions de conservation. La diversité des formats augmente d’autant les risques pesant sur les capacités de telles institutions à restituer correctement leurs collections. Parmi ces risques multiples, on peut citer :
- l’incapacité à identifier le format et donc l’outil de restitution adapté ;
- la disparition de logiciels de lecture ou leur indisponibilité en raison de leur coût, de la politique de l’entreprise qui les développe ou de leur mode d’achat ;
- l’utilisation d’outils inadaptés ou mal employés donnant lieu à une restitution non fidèle, ou à la perte d’information involontaire à la suite d’une migration mal maîtrisée.
- En tant qu’institution commanditaire, la BnF veille à choisir avec soin les formats dans lesquels elle demande la production de données.
- Lorsque la BnF acquiert des données de producteurs, elle négocie la remise de celles-ci dans un format maîtrisé.
- Lorsque la BnF hérite de données dans un format qu’elle ne peut choisir, elle envisage en cas de risque avéré portant sur elles de les convertir dans un format maîtrisé.
La politique de la BnF sur les formats de données pour la préservation
Comme toutes les autres branches de la préservation numérique, la connaissance et la veille sur les formats est une activité complexe qui doit être effectuée de manière collaborative. À ce titre, la BnF a mis en place un groupe de travail sur les formats de données pour la préservation numérique qui assure une veille sur son domaine de compétence. Ce groupe a élaboré, de 2018 à 2021, la politique de la BnF sur les formats de données pour la préservation.
Ce document a vocation à être périodiquement revu à mesure de la progression du groupe de travail sur les formats.
la mise en œuvre dans SPAR
Catégorie de format | Description |
---|---|
Stocké
|
Format dont on ignore les caractéristiques techniques (non identifié) et pour lequel on n’assure que la conservation du train de bits
|
Identifié
|
Format dont on connaît les caractéristiques techniques (détectées par un outil d’identification) mais pour lequel aucun suivi et aucune trajectoire de migration / émulation ne sont prévus. Un format identifié devient maîtrisé ou connu si on met en œuvre une telle trajectoire
|
Connu
|
Format non maîtrisable pour lequel la BnF possède au moins un outil de référence, connaît les usages qui en sont faits, sur l’évolution duquel elle assure un suivi et une veille, et pour lequel elle a défini une trajectoire en vue de sa transformation en format maîtrisé ou de son émulation. |
Maîtrisé
|
Format maîtrisable pour lequel la BnF possède la documentation publiée et au moins un outil de référence, sur l’évolution duquel elle assure un suivi et une veille, et pour lequel elle a défini des contraintes d’application vis-à-vis des producteurs. |
Pour chaque filière, les experts en préservation numérique de la BnF ont établi une liste de formats de données qui peuvent être utilisés dans SPAR. Ces formats sont l’objet d’une veille permanente et sont susceptibles de changer avec l’évolution des techniques.