Bibliothèque nationale de France
Pour les professionnels
Télécharger
Conversion en mode texte
Reconnaissance optique des caractères : permettre la recherche plein texte
La technique d’OCR permet de situer et de reconnaître les chaînes de caractères dans une image et donc de faire la conversion des mots qui peuvent ensuite être utilisés pour faire une recherche plein texte. Cette conversion est assurée automatiquement par un logiciel et fait l'économie de la retranscription manuelle, beaucoup plus chère. Les mots et chaînes de caractères stockés dans un fichier texte peuvent être réutilisés pour une nouvelle mise en page, exploités dans une base de données, etc.
Le principe est la reconnaissance de caractères à partir de formes mémorisées par le logiciel et de termes déjà connus car présents dans le dictionnaire utilisé par l'outil. Chaque espace et chaque chaîne de caractères (appelé "string") est donc identifié précisément et doit être restitué dans le sens principal de lecture.
La qualité de l'OCR dépend du document original et de la qualité de la numérisation
Les techniques d'OCR sont en progrès constant pour répondre à la demande très forte, mais la qualité de reconnaissance dépend malgré tout d'un grand nombre de facteurs liés tant au document original qu'à la numérisation elle-même. Ainsi :
Afin d’exploiter les résultats de l’OCR, on utilise à la BnF un format basé sur XML et géré par un schéma, le format ALTO.
Le format ALTO
ALTO est un des formats les plus couramment utilisé pour la conversion des textes à partir des images. Il est basé sur XML et géré par un schéma. Il conserve toutes les coordonnées du contenu (texte, illustrations, graphiques) dans l’image et permet la superposition de l’image et du texte (fichier PDF multicouches) ainsi que la surbrillance des mots recherchés lors d’une requête.
ALTO permet la segmentation d’une page en différents éléments composés de sous-éléments.
L’élément page peut contenir cinq éléments :
Exemple de découpage d’une page de presse
© BnF
Dès que l’un de ces éléments contient une information (texte, illustration etc.), cette information est décrite dans un ou plusieurs éléments BlockGroup.
Les éléments BlockGroup peuvent être de quatre types différent :
A l’intérieur d’un TextBlock, l’élément String rassemble les chaînes de caractères.
Chaque élément ou bloc préalablement identifié est définit par des attributs génériques. Ces attributs donnent la dimension de chaque bloc, ligne et chaîne de caractères ("string") et les types :
Les coordonnées en pixels sont définies à partir du point de repère le plus en haut à gauche de la page. Ainsi, chaque bloc ligne ou chaîne de caractères reconnus est identifié dans l’ordre de présentation de l’original.
ALTO permet également de signaler des formes géométriques (cercle, polygone, ellipse), des illustrations, des graphiques, de gérer les césures... Les objets non textuels ont également leurs propres découpage et coordonnées.
Chaque chaîne de caractères composant un mot ou une partie de mot césuré (String) est identifiée avec les informations suivantes :
Le logiciel de reconnaissance de caractère attribue pour chaque mot une valeur de fiabilité, indiquée dans la balise < wc >("word confidence"), et pouvant aller de 0 à 10. Cette valeur sert à calculer :
Pour chaque document numérisé par la BnF, le taux de qualité calculé automatiquement par le logiciel est vérifié manuellement par le prestataire sur un échantillon de mots, conformément à la norme ISO 2859-1. Cette opération permet de confirmer le taux de qualité annoncé.
Pour une partie des documents numérisés, la BnF exige un taux de qualité supérieur à 99,9%. Pour tous ces documents, quel que soit le taux de qualité après OCR, le prestataire doit garantir ce taux en employant tous les moyens de corrections nécessaires, y compris manuels.
mardi 12 janvier 2010