Bibliothèque nationale de France

Formulaire de recherche

  Pour les professionnels

Écouter la page :

Télécharger

Numérisation et métadonnées

A la BnF, la numérisation est considérée depuis l'origine (début des années 1990) comme une technique de reproduction et de conservation à part entière des documents. Les choix de formats, de résolution, de prise de vue reflètent ce principe. La numérisation en mode image continue d’être une priorité car elle permet de proposer aux utilisateurs une reproduction fidèle du document original. Dès lors, la structure et l’organisation du document numérique sont traités selon des méthodes précises afin d’en assurer à la fois la communication et la conservation.
L’ensemble des règles de numérisation sont regroupés dans la Charte technique de numérisation de la BnF.

Formats de numérisation

Le choix du format est essentiel à la qualité de la numérisation et à la préservation à long terme des documents numériques. Il doit être le plus ouvert possible, autoriser l'indexation de chaque fichier, et, si la compression est choisie, celle-ci doit être sans perte ou réversible si l’on veut assurer la sauvegarde à long terme des images.

Il est important de distinguer format d'archivage et format de diffusion afin :

  • d'assurer l’indépendance du système de préservation par rapport aux outils et standards de consultation ;
  • de gérer les contraintes d’accès (droits liés aux documents numériques par exemple, conditions de réutilisation des images) ;
  • d'assurer de bonnes conditions de consultation du document numérique en ligne (temps d'affichage, de téléchargement, etc).

Qu'est-ce qu'un format ?

Un format décrit la manière dont les informations sont organisées dans un fichier.
Un format de données est dit ouvert lorsque ses spécifications sont à la disposition du public et peuvent être utilisées à volonté, sans contraintes légales limitant l'usage ou exigeant le paiement de redevances. Un format peut être propriétaire (totalement ou partiellement breveté) mais suffisamment documenté pour en permettre une large utilisation.

Certaines applications savent exploiter un format à partir de certains éléments d’identification tels que l’extension ou des informations données dans l’en-tête du fichier.
La plupart des formats d’image utilisés sur le Web sont des formats propriétaires mais ouverts. Ils sont devenus des standards de fait. Il existe aussi des formats d’images ouverts et libres, mais ils sont moins répandus.

Les formats de numérisation, d’archivage et de diffusion utilisés à la BnF

L’ensemble des règles techniques de numérisation exigées par la BnF font l’objet d’une charte décrivant notamment l’ensemble des formats de numérisation.

  • Les imprimés
    Les imprimés sont numérisés en 300 ou 400 dpi en noir et blanc et compressés sous un format TIFF monopage compression UIT Groupe 4.
    Une table de correspondance est fabriquée, elle permet de faire le lien entre le rang électronique de la page dans l’ouvrage et la pagination physique de l’ouvrage.
    Les ouvrages numérisés sont ensuite stockés sur les serveurs de consultation en TIFF multipage.
    Gallica, serveur de la Bibliothèque numérique sur Internet offre un déchargement TIFF ou PDF.
  • Les images fixes
    Les documents iconographiques (manuscrits, estampes, photographies, cartes, etc...), opaques ou transparents, sont numérisés en général en couleur.
    Les documents plus grands que A6 sont numérisés en 300 dpi, les originaux inférieurs au A6 en 600 dpi.
    La résolution peut être mixte (300 et 600 dpi) pour un même original s'il présente des variations importantes de format, de taille d'information (enluminures, toponymes, petits caractères), ou des objets associés (écrins, coffret).
    Le format d'archivage est le TIFF monopage non compressé et le format de diffusion est le PNG et le JPEG.
  • La presse
    La presse quotidienne est numérisée intégralement en niveaux de gris, en 300 dpi, en format TIFF non compressé.
    Le format d'archivage est le TIFF monopage et le format de diffusion est le JPEG2000.

Pour tous ses nouveaux projets, la BnF a décidé de numériser ses documents à une résolution minimum de 400 dpi et d'abandonner le noir et blanc au profit du niveaux de gris (sauf cas particulier où le rendu d'une illustration est meilleur en noir et blanc).
Par ailleurs elle étudie la possibilité d'utiliser JPEG2000 en format d'archivage.

dpi (dot per Inch) ou point par pouce : valeur numérique d'une image composée d'une juxtaposition d'éléments d'image (pixels) disposés en rangées et en colonnes.

Contrôle des documents iconographiques

S'assurer de la bonne restitution des couleurs implique une vigilance sur l'ensemble de la chaîne de traitement : la gestion des couleurs est particulièrement complexe.
Lors de la capture, il faut veiller à :

  • avoir un niveau d'illumination suffisant lors de la capture ;
  • avoir un système de numérisation performant et adapté au projet ;
  • étalonner le scanner : définir un état colorimétrique de référence ;
  • utiliser des mires normalisées ;
  • utiliser des profils ICC pour restituer fidèlement les couleurs d’un périphérique à l’autre (les profils ICC sont des fichiers permettant de convertir les couleurs d'un espace colorimétrique d'un périphérique à l'esapce supporté par un autre périphérique, par exemple convertir les couleurs en Rouge, Vert, Bleu (RVB) en Cyan, Magenta, Jaune, Noir (CMJN) pour l'impression) ;
  • ajouter à chaque document numérique l’image des mires numérisées le jour du traitement du document.

Après la prise de vue, il faut :

  • calibrer les écrans de contrôle à l'aide de spectrophotomètre, ou de colorimètre ;
  • contrôler les images avec les documents originaux sous les yeux et à la lumière du jour.

lundi 4 octobre 2010