Numérisation de masse : qualité et formats utilisés pour garantir la conservation

dans Actualités de la conservation, n° 28, 2009
Mot-clé dans l’index : numérisation
Marie-Elise Fréon
 

La BnF a mis en place, dès le lancement de la numérisation pour la constitution de la bibliothèque numérique Gallica, des outils et des procédures pour évaluer l’exhaustivité et la qualité des prestations exécutées dans le cadre des marchés de production d’images numériques. Elle les a ensuite améliorés et fait évoluer au cours du temps, en particulier pour la numérisation en nombre, qui nécessite une gestion fiable et efficace de gros volumes, sans pénaliser pour autant la qualité des documents numériques produits.

Les relations avec les fournisseurs ont été formalisées de manière très précise par un échange d’informations nécessaires à la production des différents types de données qui vont être exploitées par la BnF, tant pour l’archivage à long terme des documents numériques que pour la production des éléments à mettre en ligne. Ainsi dans le cadre du marché de dématérialisation des collections (dit de numérisation de masse) les éléments suivants sont à fournir à chaque livraison de documents numériques:

  • fichiers images (fac-similé numérique de l’original);
  • métadonnées;
  • fichiers textes issus de l’OCR (conversion en haute qualité ou en automatique);
  • fichier des tables des matières et index (conversion en haute qualité avec lien vers les pages d’entrée).

Afin que les prestataires puissent fournir les données correctement et que chacun suive le flux des objets numérisés et les documents numériques produits, la BnF fournit lors de chaque enlèvement, les éléments suivants:

  • un bordereau de traitement au format XML qui donne les identifiants des documents et précise les traitements demandés (images couleur, OCR haute qualité?). Il est extrait des bases de sélection numériques alimentées à partir du catalogue qui signale tous les exemplaires existants pour un document y compris les exemplaires numériques. Ce bordereau contient également des informations bibliographiques permettant l’identification du document, ainsi que le signalement de son état physique;
  • un bon d’enlèvement sous forme papier destiné au transport et aux assurances.

Au retour les livraisons sont accompagnées de plusieurs éléments: un bon de livraison papier accompagne les originaux retournés après numérisation et un fichier de métadonnées accompagne chaque document numérique qui contient:

  • la reprise des informations bibliographiques, en particulier: l’identifiant de l’original (code à barres) et celui de la notice bibliographique permettant de lui rattacher l’exemplaire numérique créé automatiquement par la BnF lors du chargement;
  • l’identifiant du document numérique attribué par le prestataire à partir d’une liste donnée par la BnF;
  • le cadre de classement Dewey, et éventuellement la numérotation pour les périodiques, la tomaison pour les ouvrages en plusieurs volumes?;
  • la table de correspondance entre les images et les pages physiques de l’original, des données de production;
  • fichiers associés aux images tels la table des matières ou les fichiers textes issus de l’OCR, informations sur les traitements effectués par tel atelier qui a créé les données et aussi les matériels et logiciels utilisés pour la numérisation et pour toutes les étapes de production: recadrage / redressement des images, binarisation, outils OCR, création des fichiers xml?);
  • et enfin, un bordereau de traitement retour au format XML qui donne la liste des documents numériques livrés ou retraités après réfection à la demande de la BnF.

L’ensemble des fichiers formant un document est regroupé dans un répertoire de livraison qui fait office de paquet de versement auquel le prestataire ajoute un fichier d’empreinte permettant de contrôler l’intégrité des données livrées. À réception des documents numériques, la chaîne d’entrée BnF effectue un certain nombre de contrôles de structure sur chaque fichier qui compose un document numérique et ajoute dans les métadonnées les résultats et les étapes d’intégration du document (chargé, en cours de traitement, rejeté, validé, en ligne?). Les fichiers ainsi enrichis permettent de renseigner les bases de production BnF afin de tracer le retour des originaux, les quantités de documents numériques versés et leur état jusqu’à la mise en ligne.

Afin de garantir la qualité des données produites dans le cadre de ses marchés de numérisation de masse, la BnF a demandé à ses prestataires de fournir un plan assurance qualité (PAQ) lui permettant de s’assurer qu’ils avaient acquis une bonne compréhension de ses attentes. Ce PAQ détaille toutes les procédures et tous les outils mis en place pour chaque étape de la chaîne de traitement destinée à produire les données requises, au format et au niveau de qualité exigés, selon les règles émises dans les cahiers des charges. La chaîne est décrite pour la production de chaque type de données avec les éléments reçus en entrée et les produits fournis en sortie. Un certain nombre de chartes et de référentiels fournis par la BnF figurent en annexe de ce document (règles de numérisation et de production des fichiers texte, des métad onnées, des données de l’exemplaire numérique, de la table de correspondance?).

De son côté, la BnF a mis en place son propre PAQ interne ; le nombre de services et d’interlocuteurs impliqués dans le projet est tel que ce document est nécessaire pour recenser toutes les étapes de la chaîne, de la sélection des documents à leur retour en magasin et jusqu’à la mise en ligne de leur reproduction numérique. La répartition de chaque tâche est spécifiée, y compris le délai imparti à chacune d’entre elles afin que les lots soient prêts en temps voulu. Outre la sélection et la mise en ligne y figurent en particulier: l’extraction, le pistage, le conditionnement, l’intégration des données, le contrôle, la mise en ligne, la facturation? Ce document précise aussi les outils utilisés par la BnF et les procédures qu’elle a mises en place.

La charte de numérisation de la BnF permet d’obtenir un document numérique maître pour l’archivage à partir duquel elle décline les fichiers de diffusion mis en ligne. Tout document numérisé comporte la reproduction en mode image de ses pages gérée par son fichier de métadonnées. Pour les imprimés, en particulier, on y ajoute éventuellement des fichiers xml pour la conversion de la table des matières et des pages de texte en OCR. La BnF utilise des formats normalisés ou des standards connus et documentés afin de préserver l’accès aux fichiers dans le temps.

Les images du document maître sont fournies au format TIFF V.6 non compressé sauf pour celles des textes en noir et blanc compressées en IUT groupe IV (compression entièrement réversible permettant la restitution de tous les pixels à leur place initiale). Le format JPEG a été utilisé jusqu’en 2006 pour la compression des images en niveaux de gris et en couleur puis a été abandonné car il ne permettait pas une restitution complète et exacte des pixels. Chaque fichier TIFF comporte un en-tête incluant des informations techniques, de production et de propriété propres à la gestion des images, sous forme codée selon le standard Adobe. La résolution standard est de 300 dpi mais peut monter jusqu’à 600 si l’original le nécessite. Pour ses futurs marchés, la BnF souhaite abandonner le noir et blanc au profit d’images en niveaux de gris et généraliser la numérisation à 400 dpi afin d’obtenir un meilleur rendu des images, aussi bien pour la consultation que pour les traitements OCR. Le poids des fichiers qui en résultera impactera fortement la chaîne de traitement et les espaces de stockage dans le magasin numérique, aussi une étude sera menée pour envisager l’utilisation de JPEG 2000 à un taux de compression acceptable pour la conservation à long terme.

Les textes convertis par OCR sont conformes au schéma XML ALTO (Analyzed Layout and Text Object) qui permet de stocker à la fois la présentation et le contenu d’information. Chaque page convertie produit un fichier Alto présentant les coordonnées de chaque élément identifié par l’OCR (blocs de textes, lignes, mots, mais aussi blocs illustrations et graphiques). Ces coordonnées permettent de faire correspondre le texte et l’image originale lorsqu’on les superpose afin de mettre en surbrillance les termes trouvés à l’issue d’une requête. Le fichier ALTO comporte en outre des éléments d’évaluation de la qualité de reconnaissance de chaque mot et le taux qualité obtenu par chaque page ainsi que des renseignements sur la présentation typographique du texte permettant sa publication directe dans une mise en page la plus proche possible de l’original.

Le fichier de table des matières permet d’accéder directement à certaines sections du document. Il respecte le schéma tdmNum. Ce format permet d’encoder les niveaux hiérarchiques de la table des matières ou des listes d’index dans un seul fichier. Il s’inspire de la TEI (Text encoding initiative) sous un formalisme très simplifié en utilisant des en-têtes (<head>) pour les intitulés des niveaux eux-mêmes répartis dans des divisions (éléments <div>) qui peuvent être typées T pour table ou I pour index. Au sein d’une division, chaque entrée fait le lien vers l’image qui contient la partie référencée et vers le numéro de la page concernée.

Toutes les règles et procédures de traitement mises en place par la BnF visent à produire un master numérique de la meilleure qualité possible en vue de sa conservation à long terme. Le choix de standards connus et documentés pour l’ensemble des fichiers transmis à la chaîne d’entrée concourt à préserver l’accès aux fichiers sur une durée indéterminée.