Bibliothèque nationale de France

Formulaire de recherche

  Pour les professionnels

Écouter la page :

Télécharger

Conversion en mode texte

Afin de répondre aux usages des internautes, la BnF assure la conversion en mode texte des documents imprimés le permettant et préalablement numérisés en mode image. Des accès enrichis sont par ailleurs spécifiquement créés pour les tables des matières et index.
L’ensemble repose sur des formats XML et sur des standards spécifiques : ALTO et TEI, détaillés dans un mémento sur les langages d'encodage et de structuration de texte.
Un certain nombre de règles spécifiques sont disponibles dans la Charte technique de numérisation de la BnF.

Tables des matières, index et texte enrichi en TEI

Tables des matières et index

Encodées en TEI simplifié, les tables des matières et les index (géographiques, des auteurs, des personnes citées, etc.) sont des outils de consultation et de navigation très utiles dans un document.

Lorsqu’ils existent dans le document original, ils sont restitués dans le document numérique de manière à créer des accès spécifiques (appelés génériquement "Table des matières" dans l’interface de consultation de Gallica).

Cette conversion se fait par saisie manuelle, puis balisage de chaque entrée. Chaque table des matières ou index est divisé selon ses grandes parties, à l'intérieur desquelles chaque entrée (intitulé et page cible) est balisée en tant que lien hypertexte vers la page cible à laquelle elle se réfère. Ceci n'est possible que par l'identification au préalable des pages constituant la(les) table(s) des matières ou le(s) index dans le fichier refNum.

La gestion des tables des matières dites "multivolumes" (liens d'une entrée vers une ou plusieurs pages d'un autre document numérique) est également prise en charge dans le processus de numérisation des documents de la BnF.

Exemples de tables des matières dans Gallica :

Texte enrichi

A titre expérimental, la Revue de synthèse a été intégralement encodée en TEI simplifié. Cette version textuelle du document permet une recherche plus fiable et précise que dans les conversions générées par OCR, et une navigation spécifique à l’intérieur de chaque fascicule et entre les fascicules.

A cette fin, les éléments structurants du texte (grandes rubriques, chapitres, images, formules, citations, notes de bas de page, renvois etc.) ont été balisés.

Exemples dans Gallica :

La version en mode image est également accessible sur Gallica.

Tei simplifiée utilisée à la BnF

Les projets d’encodage en TEI à la BnF ont débuté à la fin des années 90. Ils se sont appuyés sur la troisième édition de la TEI (P3) dans sa version simplifiée sous forme de DTD et notamment sur la traduction française de 1996 de celle-ci.

La TEI simplifiée est une sélection des éléments, attributs et paramètres indispensables et les plus utilisés de la TEI.

Les balises obligatoires sont composées de :

  • l'ensemble des éléments et des attributs obligatoires pour tous les genres de documents et qui servent à la transcription du texte. Un document TEI simple comporte les éléments suivants :
    • < front > : regroupe toutes les pièces liminaires (en-têtes, page de titre, préfaces, dédicaces, etc.) situés avant le début du texte lui-même ;
    • < group > : regroupe plusieurs textes unitaires ou groupes de textes ;
    • < body > : regroupe le corps entier d'un texte unitaire seul, à l'exclusion de toute pièce liminaire ou annexe ;
    • < back > : regroupe toutes les annexes qui suivent le texte principal.
  • un en-tête, le Header, qui fournit toutes les informations relatives à la création et à la gestion du document (auteurs et leur rôle, langue d’usage, contexte, classification et descripteurs du texte), ses liens avec d’autres sources ainsi que l’historique des versions

Les balises de base : ont été choisies entre plusieurs catégories de textes dont les principales sont : prose, poésie, théâtre, transcription du discours, dictionnaire et informations terminologiques.

Généralement, un seul ensemble de balises permet l'encodage d'un genre spécifique. Les balises de base déterminent donc la composition du texte encodé selon l'interprétation que l'on veut en donner.

Les divisions prévues dans la DTD désignent les parties ou sections du texte en fonction de la structure de base choisie. Tous les objets tels que "chapitre", "section", "acte" ont une place définie dans la structure logique du document. Si, pour certaines raisons culturelles ou d'application, l'appellation de ces objets peut varier dans le document original, la TEI les considère comme le même type d'élément, soit une division < div> numérotée ou non (la dernière version de la TEI Lite n'autorise plus la numérotation des divisions). Il est alors possible de qualifier ces divisions par un attribut "type" : par exemple, un chapitre pourrait être identifié par la balise < div2 type='chapitre' >.

divisions structurant un texte dans un document numérique de la BnF

Exemple de divisions structurant un texte


Un certain nombre de balises spécifiques permettent d'encoder des parties de texte particulières et de gérer des liens.

TEI

La TEI, basée sur le SGML, permet d’encoder des textes sous forme électronique, en particulier les textes littéraires et linguistiques. Elle vise à rendre compte de l'organisation logique d'un texte et à reconstituer son arborescence hiérarchique (divisions, chapitres, sous-chapitres, sections, et jusqu’à ses parties les plus complexes telles que citations, vers, noms propres mentionnés dans le texte, soulignement et autres mises en évidence, etc.).

Une architecture conçue en modules permet de choisir des ensembles d'éléments répondant aux besoins d'encodage d'un type particulier de texte : poésie, pièces de théâtre, dictionnaires, corpus linguistiques, manuscrits, critiques textuelles, transcriptions de discours oraux, etc.

L'architecture modulaire de la TEI offre une grande souplesse. Les modules peuvent être combinés de différentes façons selon certains principes. Le niveau de précision peut également être choisi selon les besoins du projet d'encodage. La multitude de balises utilisables permet de restituer toute la richesse d’un texte et de l’exploiter au même titre qu’un fichier prêt à être publié par un éditeur.

La TEI est aujourd’hui à sa cinquième édition (TEI P5). Elle peut être exprimée en DTD ou en schéma. Sa gestion est assurée par une fondation à but non-lucratif : le Consortium TEI. Elle évolue comme un projet collaboratif multilingue.
Une version française du Dictionnaire des balises est réalisée et tenue à jour par le groupe AFNOR CG 46/CN 357/GE8 TEI.

En savoir plus

sur la TEI Lite (P5)

mardi 3 août 2010