Soutenez la BnF
Formulaire de recherche

La BnF

Plan triennal de la recherche

Cofinancé par la BnF et le ministère de la Culture et de la Communication (département de l'Enseignement supérieur, de la recherche et de la technologie), le plan triennal de la recherche, dispositif engagé depuis 1994, permet de conduire des programmes de recherche autour de l'histoire et l'analyse des collections de la BnF et autour des sciences du livre et des bibliothèques. Cette activité répond à des exigences scientifiques précises en termes d'obligation de résultats, de travail en partenariat et de programmation rigoureuse dans le temps

Supports numériques et nouvelles technologies : programmes achevés

Mise au point d'outils de structuration des documents électroniques.

Caractérisation des documents numérisés et prédiction de performances des techniques d'OCR et d'Indexation

Élaboration d'un logiciel de recommandation pour les organismes de préservation et prestataires (direction des Services et des réseaux / département de la Conservation)
Subventionné

Permettre une préconisation des meilleurs outils et méthodes à appliquer en fonction des fonds concernés afin de prédire l'adéquation des documents à convertir aux systèmes d'OCR. Elle doit également présenter les taux d'OCR recommandés selon les types de documents afin de rendre l'indexation et la recherche de document performante. La typologie de document ainsi établie offrirait la possibilité de n'envoyer dans les marchés de conversion que les documents susceptibles de fournir des résultats suffisants pour l'indexation, l'affichage et l'exploitation sur des médias divers. Ce serait une aide à la sélection et un facteur de réduction des coûts puisque la BnF éviterait ainsi de payer une prestation fournissant des résultats inexploitables du fait d'une qualité de reconnaissance trop basse.

Résultats

Les résultats des travaux réalisés par le doctorant Ahmed Ben Salah s'avèrent tangibles. Le programme a relevé les insuffisances de l'opération de contrôle de l'OCR par manque d'outils de vérification automatique et par incapacité à déterminer les vrais taux d'erreur dans les documents livrés par les prestataires. Des vérifications automatiques des résultats de l'OCR (présence des éléments manquants non détectés par l'OCR ; exactitude des mots reconnus) ont été menées et un outil d'appui pour l'évaluation a été construit. Il permet de suivre les modifications apportées à deux versions d’un fichier ALTO, d'effectuer des contrôles manuels sur les résultats de l'OCR et de fournir les moyens du calcul des performances du système de vérification de l'OCR.

Au terme de cette recherche, la BnF devrait disposer des moyens de procéder à une vérification automatique des résultats de l'OCR, de déterminer des zones d'échecs potentiels, d'estimer le taux de reconnaissance réel, de définir des métriques pour évaluer la qualité des documents numériques et permettre au service de numérisation de définir une nouvelle norme de contrôle.

Projet OPTIMA

Subventionné

L'objectif d'OPTIMA visait à rendre possible une édition hypertextuelle érudite de fonds, en privilégiant d'abord la conception et la mise au point d'outils numériques fondamentaux. Ce programme financé par l'Agence Nationale de la Recherche impliquait l'Institut des textes et des manuscrits modernes (ITEM) , la BnF le Laboratoire d'Informatique, de Traitement de l'Information et des Systèmes (LITIS), le Laboratoire d'Informatique de l'université Paris-Nord (LIPN).

Il s'agissait de convertir une masse de manuscrits autographes – dont l'accès se trouve réservé à un public initié en raison de leur complexité graphique – en un "avant texte" transcrit et classé permettant d'interpréter les processus à l'origine du texte.

L'expérience a porté sur plusieurs grands corpus comportant des modèles d'écritures diversifiées : Flaubert, Proust, Valéry, fiches de travail de Fernand Braudel et s'est déroulée sur trois ans. 15 000 images haute définition furent produites, sous le contrôle de la BnF. Le LITIS et le LIPN étaient chargés d'élaborer les outils d'aide à la visualisation, à la transcription au classement et à l'annotation numériques, ainsi que ceux permettant la recherche et l'édition en ligne.

En savoir plus

La présentation d’OPTIMA [fichier .html]

Projet STITCH (Semantic Interoperability to Access Cultural Heritage)

Subventionné

Ce projet a débuté en juillet 2006, pour une durée totale de quatre ans.

Son premier objectif est de développer une théorie, des méthodes et des outils pour permettre l'interopérabilité des métadonnées à travers des liens sémantiques entre vocabulaires d'indexation hétérogènes. Ces techniques sont assez similaires au domaine de l'alignement d'ontologies.

Il s'agit de mettre en correspondance de façon (semi-) automatique les vocabulaires utilisés pour décrire des collections et les schémas de métadonnées qui les structurent. Dans un premier temps, les recherches porteront sur les vocabulaires de descripteurs utilisés pour l'indexation matière des ressources iconographiques.

Les collections choisies pour la phase expérimentale sont :

  • la base des enluminures de manuscrits médiévaux de la Bibliothèque royale des Pays-Bas (KB),
  • le catalogue des collections du Rikjsmuseum,
  • et Mandragore qui a été retenu comme ensemble iconographique, indexé selon un vocabulaire différent d'IconClass, vocabulaire retenu pour les deux premiers.

Un démonstrateur a été réalisé par les équipes hollandaises associant dans une même interface les accès aux différentes collections et permettant des recherches par un des vocabulaires sur l'ensemble des données. Il permettra de réfléchir aux extensions éventuelles de ces techniques à d'autres domaines ou vocabulaires et trouvera un prolongement au sein du programme européen TEL+.

Partenaires

IDA

Subventionné

Le projet IDA a réuni l’Institut des textes et des manuscrits modernes (ITEM), l'Institut National de Recherche en Informatique et en Automatique (INRIA) et la BnF autour de la problématique de la mise à disposition de corpus de manuscrits numérisés en vue de l'annotation collaborative en ligne par des équipes de chercheurs.

A travers la numérisation des trois manuscrits de Proust, Flaubert et Valéry, les partenaires du projet ont exploré les conditions particulières de qualité qui sont nécessaires à la mise à disposition d'un corpus de haute qualité numérique. L'analyse de ces manuscrits par les équipes de l'ITEM, de la transcription à la création de classements et de parcours de lecture, se voit ainsi facilitée par l'outil numérique, pour autant que celui-ci prenne en compte les besoins de métadonnées techniques normalisées et de références stables, indispensables pour bâtir des applications d'annotation collaborative des corpus.

L'expérience technique du projet IDA pourra ainsi servi le projet OPTIMA qui constitue le passage à l'échelle quantitative du corpus de manuscrits littéraires.

Watson-Web : Analyse des textes, sélection et outils nouveaux

Subventionné

Dans le cadre de l'appel à projet Technolangue du Ministère de la recherche, la BnF a été partenaire du projet Agile/Watson.

À partir de technologies utilisées dans le traitement automatique de la langue, et dans une optique d'accès et de détection des contenus, l'objectif était d'en appliquer les principes au pré-filtrage, catégorisation et extraction-résumé de données collectées pour le dépôt légal du Web et de les évaluer. Un outil a été développé et le projet Watson a été l’occasion d'utiliser les captures de sites réalisées par la BnF lors des élections présidentielles et législatives 2002, en se plaçant du point de vue du chercheur qui souhaiterait travailler sur de tels corpus.

Dans le prolongement du programme, un pilote d’utilisation par un groupe de chercheurs de ce corpus, complété par les élections régionales et européennes 2004 a été réalisé.
Le produit ayant servi au développement de l'outil dans Watson a été acquis par la BnF et mis en œuvre en complément des autres outils d’accès aux archives web développés dans le cadre du consortium IIPC.

En savoir plus

Site de l’IIPC

BibUsage

Subventionné

Ce projet de recherche sur les usages d'une bibliothèque électronique en ligne a été subventionné par le Ministère de la recherche dans le cadre d'un appel à projet RNRT (Réseau National de Recherche en Télécommunications) sur les nouveaux usages, lancé en fin 1999. Conduit en partenariat avec France Télécom Recherche et Développement - pilote du projet et contributeur notamment avec son secteur de recherche en sciences cognitives - il s'est déroulé d'octobre 2001 à janvier 2003.

L'objectif de la BnF était de disposer d'informations qualitatives sur l'utilisation de la bibliothèque numérique en ligne Gallica afin de faire évoluer le service en terme de contenu, d'architecture et d'ergonomie.

La méthodologie d'investigation utilisée dans le projet consistait dans l'installation d'une sonde sur les postes informatiques d'un panel représentatif d'utilisateurs de Gallica. La sonde captait, dans le respect des données privées et avec l'accord de l'utilisateur, son activité sur Internet y compris sur Gallica. Les données de 15 500 sessions ont ainsi pu être recueillies.

Un panel de 100 utilisateurs volontaires avait été sélectionné à partir d'une enquête du public de Gallica conduite avec l'aide de la société Ipsos en mars 2002. Il était constitué d'utilisateurs d'Internet expérimentés ayant une longue pratique et un usage quotidien du web, et utiliseurs réguliers de Gallica.
Par ailleurs des entretiens individuels détaillés ont été organisés avec certains membres du panel pour permettre une meilleure interprétation de l'analyse des transactions.

Les résultats ont souligné que le panel était constitué d'un noyau d'utilisateurs actifs et motivés ayant un intérêt réel pour le projet et utilisant fréquemment des bibliothèques numériques en ligne. Les données sur les modes de consultation de Gallica - situé dans l'environnement du web global - ont montré la position de Gallica (qui figure très haut dans le classement des sites fréquentés) en tant qu'intermédiation dans le monde Internet et vers la sphère marchande, avec des allers et retours entre les sites de commerce et le site institutionnel, dans une utilisation parallèle et souvent synchrone.

mardi 22 octobre 2013

Écouter la page

En savoir plus

La recherche à la BnF Chroniques, juillet-septembre 2006

Contact

Coordination de la recherche
Olivier Jacquot
Délégation à la Stratégie et à la Recherche
Quai François Mauriac
75706 Paris Cedex 13
Téléphone : 33.(0)1.53.79.52.98
Fax : 33.(0)1.53.79.46.46
Courriel : recherche.coordination@bnf.fr
Partagez