Pour les professionnels

Recherche et développement de la BnF en numérisation patrimoniale

Ces dernières années, la BnF a fortement investi le champ de la recherche appliquée à la numérisation de collections patrimoniales, notamment pour la reconnaissance optique de caractères (OCR). Il s’agit pour l’institution de communiquer à ses usagers des documents numérisés en mode texte de la meilleure qualité possible. Une mission que peut seule satisfaire l’acquisition de savoir-faire et d’outils adéquats, conçus dans le cadre de travaux de recherche et de développement. Ces derniers s’articulent autour des trois grands axes suivants :

Adapter la numérisation aux usages présents et futurs

Les traitements OCR visent à alimenter la bibliothèque numérique Gallica en données textuelles pour faciliter la recherche dans le contenu des documents. A ce titre, ils doivent être pensés à l’aune des besoins des usagers. Or, ceux-ci ne cessent d’évoluer à mesure que les pratiques culturelles changent : les spécifications des marchés d’océrisation doivent donc prendre en compte ces mutations, voire s’efforcer de les anticiper.

Le projet européen Europeana Newspapers (2012-2014), destiné à numériser et valoriser les fonds documentaires de presse, a de ce point de vue offert un précieux terrain d’étude et d’expérimentation. Ont été posées des questions aussi diverses et fondamentales que celles de l’évaluation de la qualité des contenus océrisés, de la reconnaissance de la structure logique des fascicules (rubriquage, titrage, découpage de l’article), et des possibilités offertes par la reconnaissance des entités nommées (noms de personnes, lieux et organisation) présentes dans les contenus de presse.

Les outils et modèles développés durant le projet Europeana Newspapers ont permis d’apporter un certain nombre de réponses techniques et organisationnelles. Des avancées qui seront mises en œuvre par les prochains projets de numérisation de presse de la BnF à partir de 2015.

Contrôler l’OCR

Les volumes considérables de fichiers numériques traités via des logiciels d’OCR justifient que la BnF ne transige pas sur la qualité des données livrées par ses prestataires de numérisation. En effet, l’inadéquation des moyens et des procédures de contrôle peut s’avérer préjudiciable à la qualité globale de toute bibliothèque numérique. La mise au point de solutions de contrôle fiables et opérationnelles représentent donc une avancée majeure.

Pour gagner en maîtrise sur cet aspect, la BnF a participé durant la période 2011-2014 à de nombreux projets de recherche et lancé un plan triennal en association avec l’université de Rouen (« Contrôle qualité des données OCR »). Ces projets ont d’ores et déjà contribué à fournir des méthodes et outils innovants au service de la Numérisation, l’amenant à réfléchir sur ses pratiques et sur les moyens de les améliorer.

Plan triennal de recherche (2011-2014) : « Contrôle qualité des données OCR »

Le cœur de cette activité de recherche est une thèse doctorale soutenue en juillet 2014 sur le sujet du contrôle de l’omission de zones textuelles par les OCR et l’évaluation a priori des erreurs de reconnaissance OCR.

La poursuite de ce Plan triennal de recherche consiste en la mise en œuvre des algorithmes de contrôle OCR définis et validés durant le travail académique au sein d’une étape de contrôle qualité dans la chaîne d’entrée des documents numériques de la BnF. Cette étape est insérée dans le processus de validation des fichiers fournis par les prestataires.

Centre de compétence IMPACT

En tant que membre du Centre de compétence IMPACT, la BnF est pleinement associée au lancement de nouveaux projets européens de recherche et développement centrés sur les technologies OCR considérées dans leur périmètre le plus large : reconnaissance du texte mais aussi correction automatique et enrichissement de l’information portée par le texte (reconnaissance d’entités nommées, extraction de concepts, etc.).

A ce titre, elle a participé au projet SUCCEED (Support Action Centre of Competence in Digitisation).

SUCCEED (2013-2014)

L’objectif principal du projet européen SUCCEED est d'améliorer la disponibilité des outils et des services qui aident à créer des contenus culturels sous forme numérique, par le biais de la promotion, de l'adoption et de la validation des résultats de la recherche dans le domaine de la numérisation de masse de documents textuels.

La BnF a principalement été impliquée dans les activités suivantes :
  • Validation et adoption d’outils de numérisation : dresser le panorama des outils existants pour la numérisation du texte ; tester et valider ces outils dans le cadre des projets de numérisation de la BnF, grâce à des scénarios d’utilisation. Les outils évalués par la BnF portent sur le contrôle de la qualité de l’OCR.
  • Normalisation et standardisation : faciliter la mise en œuvre des activités de numérisation à travers l’identification et la recommandation de formats et de normes liés à la numérisation ; élaborer des recommandations européennes sur les systèmes d'octroi de licences communes pour les outils et les ressources de numérisation et sur les partenariats public-privé de numérisation patrimoniale.
  • Valorisation et animation : améliorer la visibilité et l'impact des activités mises en œuvre par SUCCEED en collectant les sorties du projet et en identifiant les canaux de communication appropriés pour les diffuser ; épauler la Commission européenne dans son action de sensibilisation aux résultats de la recherche en matière de numérisation.

Améliorer la qualité de l’OCR

Améliorer la qualité de l’OCR recouvre différents enjeux, liés à la phase technique de reconnaissance optique de caractères, mais aussi à la sélection des documents et à leur numérisation préalable. C’est en maîtrisant mieux ces différentes étapes et en appréhendant plus finement leur interdépendance que la qualité finale de l’OCR pourra être pleinement garantie.

Le projet DIGIDOC est représentatif des enjeux liés à la qualité de la numérisation préalable.

DIGIDOC (2011-2014)

Le projet ANR DIGIDOC a mené une réflexion sur les cas d’usage portés par un scanner intelligent et sur les briques logicielles nécessaires à la réalisation de ce dernier. Il avait pour objectif de qualifier une numérisation pour un usage donné, au plus tôt dans la chaîne de numérisation, afin de mieux contrôler le processus d’acquisition et de favoriser en amont la qualité de numérisation finale.

Pour cela, il a étudié la possibilité d’intégrer au sein des scanners un module supplémentaire fournissant en plus de l’image numérisée un ensemble de descripteurs de niveau intermédiaire calculés sur cette image. La définition d’un tel ensemble de descripteurs et son intégration dans un nouveau format de document numérisé était l'objectif central du projet. Ce nouveau format permettra de développer de nouveaux modes d’interaction avec les scanners ainsi que de nouveaux outils d’analyse de documents.

CORRECT (2012-2015)

Avec sa participation au projet de recherche FUI Ozalid pour la conception de la plateforme CORRECT (Correction et enrichissement collaboratifs de texte), la BnF expérimente la production participative (crowdsourcing) en proposant à ses usagers d’améliorer eux-mêmes la qualité de l’OCR des documents numérisés de Gallica.

Ce projet de R&D est également l’occasion d’explorer les possibilités d’enrichissement des documents afin d’en produire de nouvelles versions (livre électronique, édition adaptée aux personnes non-voyantes…).

Lors de la numérisation de documents, les systèmes de reconnaissance optique de caractères (OCR) laissent encore trop d’imperfections pour obtenir un document conforme à l’original. Le seul moyen d’y parvenir est de mettre en œuvre une phase de correction manuelle. CORRECT est une plateforme en ligne où peuvent collaborer différents utilisateurs pour détecter, analyser et corriger les erreurs restantes et ainsi participer à l’amélioration des documents.

Les principaux enjeux techniques sont, d’une part, de mettre à la disposition des outils intuitifs pour corriger facilement les documents et, d’autre part, de déployer des outils automatiques pour superviser la synthèse des corrections, l’analyse de la cohérence et le contrôle de la qualité de ces corrections.

En savoir plus

Plateforme CORRECT

Formats techniques : METS et ALTO

L’amélioration de l’OCR ne dépend pas de la seule qualité de transcription : l’enrichissement des informations pouvant être véhiculées par le texte s’avère une condition tout aussi fondamentale.

Tributaire de formats techniques en constante évolution (METS, ALTO), ce nécessaire enrichissement rend particulièrement opportune l'implication des représentants de la BnF dans les comités éditoriaux de ces formats.

En savoir plus

mercredi 28 octobre 2015

Partagez