Formats et techniques de numérisation en mode image

La numérisation en mode image continue d’être une priorité à la BnF car elle permet de proposer aux utilisateurs une reproduction fidèle du document original. Dès lors, la structure et l’organisation du document numérique sont traités selon des méthodes précises afin d’en assurer à la fois la communication et la conservation.
 

Formats de numérisation en mode image

Définitions

Le choix du format est essentiel à la qualité de la numérisation et à la préservation à long terme des documents numériques. Il doit être le plus ouvert possible, autoriser l’indexation de chaque fichier, et, si la compression est choisie, celle-ci doit être sans perte ou réversible si l’on veut assurer la sauvegarde à long terme des images.

Il est important de distinguer format d’archivage et format de diffusion afin :

  • d’assurer l’indépendance du système de préservation par rapport aux outils et standards de consultation ;
  • de gérer les contraintes d’accès (droits liés aux documents numériques par exemple, conditions de réutilisation des images) ;
  • d’assurer de bonnes conditions de consultation du document numérique en ligne (temps d’affichage, de téléchargement, etc).
Qu’est-ce qu’un format ?

Un format décrit la manière dont les informations sont organisées dans un fichier.
Un format de données est dit ouvert lorsque ses spécifications sont à la disposition du public et peuvent être utilisées à volonté, sans contraintes légales limitant l’usage ou exigeant le paiement de redevances. Un format peut être propriétaire (totalement ou partiellement breveté) mais suffisamment documenté pour en permettre une large utilisation.

Certaines applications savent exploiter un format à partir de certains éléments d’identification tels que l’extension ou des informations données dans l’en-tête du fichier.
La plupart des formats d’image utilisés sur le Web sont des formats propriétaires mais ouverts. Ils sont devenus des standards de fait. Il existe aussi des formats d’images ouverts et libres, mais ils sont moins répandus.

Les formats de numérisation, d’archivage et de diffusion utilisés à la BnF

L’ensemble des règles techniques de numérisation exigées par la BnF font l’objet d’une charte décrivant notamment l’ensemble des formats de numérisation.

  • Les imprimés
    Les imprimés sont numérisés en 300 ou 400 dpi en noir et blanc et compressés sous un format TIFF monopage compression UIT Groupe 4.
    Une table de correspondance est fabriquée, elle permet de faire le lien entre le rang électronique de la page dans l’ouvrage et la pagination physique de l’ouvrage.
    Les ouvrages numérisés sont ensuite stockés sur les serveurs de consultation en TIFF multipage.
    Gallica, serveur de la Bibliothèque numérique sur Internet offre un déchargement TIFF ou PDF.
dpi (dot per inch ou point par pouce)

Une image numérique « bitmap » est composée d’une juxtaposition d’éléments d’image (pixels) disposés en rangées et en colonnes. La résolution d’une telle image est mesurée par une valeur exprimée en dpi qui définit le nombre d’informations élémentaires (les pixels) composant une ligne d’un pouce (2,54 cm).

Exemple de numérisation d’un imprimé

 

  • Les images fixes
    Les documents iconographiques (manuscrits, estampes, photographies, cartes, etc…), opaques ou transparents, sont numérisés en général en couleur.
    Les documents plus grands que A6 sont numérisés en 300 dpi, les originaux inférieurs au A6 en 600 dpi ou plus.
    La résolution peut être mixte (300 et 600 dpi) pour un même original s’il présente des variations importantes de format, de taille d’information (enluminures, toponymes, petits caractères), ou des objets associés (écrins, coffret).
    Le format d’archivage est le TIFF monopage non compressé et le format de diffusion est le PNG et le JPEG.
     
  • La presse
    La presse quotidienne est numérisée intégralement en niveaux de gris, en 300 dpi, en format TIFF non compressé.
    Le format d’archivage est le TIFF monopage. Le format de diffusion est le JPEG2000.

 

Pour tous ses nouveaux projets, la BnF a décidé de numériser ses documents à une résolution minimum de 400 dpi et d’abandonner le noir et blanc au profit du niveaux de gris (sauf cas particulier où le rendu d’une illustration est meilleur en noir et blanc). Par ailleurs, elle étudie la possibilité d’utiliser JPEG2000 en format d’archivage.

Ces exigences sur les formats de numérisation sont en cohérence avec celles de la préservation numérique.

Techniques de numérisation

Les techniques de numérisation des documents dépendent de leurs conditions physiques : taille, volume, fragilité, etc.

Les documents de la BnF sont numérisés sur une grande variété de machines, dans des ateliers internes ou par des prestataires extérieurs.

Numérisation des documents originaux

Les documents originaux sont numérisés sur des matériels adaptés aux conditions de prise de vue et aux contraintes physiques du document.
Il existe deux techniques principales d’acquisition de l’image, qui se déclinent sur des matériels prenant en compte les contraintes du document : numérisation par prise de vue photographique et numérisation par balayage.
Pour la numérisation par prise de vue photographique, un appareil photographique numérique photographie le document page par page. La distance entre l’appareil et la page doit être précisément étudiée afin d’optimiser la définition de l’image. Cette technique est utilisée pour la numérisation de documents de taille petite ou moyenne.

On utilise deux types de machine pour la numérisation par prise de vue photographique :

Appareil Kirtas pour la numérisation par prise de vue photographique

  • Une machine avec berceau en forme de V pour les documents fragiles, composé d’un appareil photographique en face de chaque versant et éventuellement d’un robot tourne-page limitant l’intervention d’un opérateur.

Appareil Copybook pour la numérisation par prise de vue photographique

  • Une machine composée d’un plateau balancier pour les documents permettant une numérisation à plat (certains livres brochés ou à reliure souple).

Numérisation par balayage

Appareil Digibook pour la numérisation par balayage

Des capteurs balaient le document et reconstituent l’image pixel par pixel. Cette technique est utilisée pour la numérisation des documents de grande taille ou volumineux (cartes et atlas, dépliants, registres, presse, certains manuscrits, etc).

Le capteur est installé sur un bras mobile. La distance entre le capteur et le document à numériser est ajustable. Le document est balayé dans son intégralité.

Les pages sont tournées manuellement par un opérateur. Pour les documents à reliure fragile, un berceau en forme de V peut être utilisé.

Manuscrits et affiches
La plupart des manuscrits et affiches sont numérisés sur des machines composées d’un appareil photographique numérique monté sur une potence au-dessus d’un espace de travail modulable selon le type de document (table pour plan, berceau en V pour ouverture réduite, plateau compensateur pour reliure épaisses). Ces machines permettent de traiter des documents de tailles très diverses (jusqu’au A0) mais nécessitant des réglages spécifiques (par document voire par prise de vue).

Numérisation des microformes

Appareil Wilks & Wilson pour la numérisation des microformes

Les microfiches, microfilms, ektas, diapositives, etc. sont numérisés par des machines spécifiques adaptées à chacun de ces supports et permettant une prise de vue automatique ou semi-automatique.

 

Contrôle des documents iconographiques

S’assurer de la bonne restitution des couleurs implique une vigilance sur l’ensemble de la chaîne de traitement : la gestion des couleurs est particulièrement complexe.

Lors de la capture, il faut veiller à :
  • avoir un niveau d’illumination suffisant lors de la capture ;
  • avoir un système de numérisation performant et adapté au projet ;
  • étalonner le scanner : définir un espace colorimétrique de référence ;
  • utiliser des mires normalisées ;
  • utiliser des profils ICC pour restituer fidèlement les couleurs d’un périphérique à l’autre. Les profils ICC sont des fichiers permettant de convertir les couleurs d’un espace colorimétrique d’un périphérique à l’espace supporté par un autre périphérique, par exemple convertir les couleurs Rouge, Vert, Bleu (RVB) en Cyan, Magenta, Jaune, Noir (CMJN) pour l’impression ;
  • ajouter à chaque document numérique l’image des mires numérisées le jour du traitement du document.
Après la prise de vue, il faut :
  • calibrer les écrans de contrôle à l’aide de spectrophotomètre ou de colorimètre ;
  • contrôler les images avec les documents originaux sous les yeux et à la lumière du jour.