Quelques projets d'intelligence artificielle en cours à la BnF

Engagée depuis les années 1990 dans la numérisation de ses collections patrimoniales, la BnF a progressivement implémenté des technologies d’intelligence artificielle dans divers outils qui touchent tous ses secteurs d’activité. De la fouille d’images à l’accès à la presse ancienne numérisée, tour d’horizon de quelques projets en cours.
 

GallicaSnoop, un outil d’aide à la fouille d’images

Illustration du dossier sur l’intelligence artificielle - © Jean Leblanc / Illustrissimo

Retrouver dans la presse des années 1930 les images représentant des femmes à bicyclette, localiser les singes qui peuplent les marges des manuscrits médiévaux enluminés, recenser les différents véhicules inventés pour marcher sur l’eau, c’est désormais possible grâce à GallicaSnoop.

Ce moteur d’indexation et de recherche d’images a été codéveloppé par l’Institut national de recherche en sciences et technologies du numérique (Inria) et l’Institut national de l’audiovisuel (Ina). Expérimenté à la BnF dans le cadre d’une convention entre le ministère de la Culture et l’Inria, il repose sur un réseau de neurones artificiels qui calcule les similarités visuelles. « C’est sur ce même moteur que s’appuie par exemple l’application Pl@ntnet, qui permet aux apprentis botanistes d’identifier les plantes qu’ils prennent en photo », précise Jean-Philippe Moreux, qui accompagne à la BnF les projets d’intelligence artificielle.

Alimenté par les collections iconographiques numérisées de la BnF, GallicaSnoop est susceptible d’intéresser des chercheurs venus de toutes disciplines – des sciences de l’information à l’histoire de l’art en passant par les études visuelles – et d’être adapté à des corpus et des objectifs très divers : il est d’ores et déjà utilisé par les agents de la BnF comme outil de recherche iconographique en appui à la médiation numérique.

REMDM, un répertoire pour reconnaître la main d’un compositeur

Le département de la Musique de la BnF travaille à l’établissement d’une base de données répertoriant les écritures des 50 000 manuscrits musicaux conservés dans ses collections.

À terme, la base de données REMDM (pour Répertoire des écritures manuscrites du département de la Musique) sera pourvue d’un outil de fouille automatique d’images développé avec les laboratoires en informatique L3i (La Rochelle université) et IRISA (CNRS).

Illustration du dossier sur l’intelligence artificielle - © Jean Leblanc / Illustrissimo

« L’objectif est de pouvoir établir des correspondances entre les manuscrits, voire d’identifier les scripteurs de manuscrits aujourd’hui anonymes, expose Rosalba Agresta, assistante de recherche au département de la Musique. Dans un premier temps, il faut préparer les données, d’abord en vérifiant et en corrigeant les notices des documents, et ensuite en annotant finement des images extraites de manuscrits numérisés. » Cette identification repose entièrement sur l’expertise des musicologues : c’est souvent dans la façon de dessiner les clés ou les silences, dans l’inclinaison des hampes des notes ou dans la graphie des P ou des D (présents dans des indications comme piano, dolce ou crescendo) que les spécialistes reconnaissent la main d’un compositeur ou d’un copiste.

Litté_Bot, un chatbot pour discuter avec Dom Juan

Image Illustration du dossier sur l’intelligence artificielle - © Jean Leblanc / Illustrissimo

En septembre 2022, le site Richelieu de la BnF, dès sa complète réouverture au public, fêtera les 400 ans de la naissance de Molière avec une grande exposition. À l’issue du parcours, les visiteurs pourront dialoguer avec le personnage de Dom Juan, grâce à un dispositif ludique et poétique d’intelligence artificielle. Celui-ci a été imaginé par l’artiste Rocio Berenguer, avec l’appui scientifique des commissaires de l’exposition et des chercheurs du laboratoire d’informatique avancée de Saint-Denis et du laboratoire Paragraphe de l’université Paris 8.

Ce projet s’inscrit dans le cadre de Gallica Studio, dispositif mis en place par la BnF pour stimuler la réutilisation des données de la bibliothèque numérique Gallica et élargir le cercle de ses utilisateurs. Financé par l’école universitaire de recherche ARTEC, cet agent conversationnel ou chatbot littéraire s’appuie sur une base de données élaborée à partir d’un corpus de 400 pièces de théâtre du XVIIe siècle et se situe à mi-chemin entre les chatbots à scénarios fermés des services clients des entreprises et les chatbots ouverts à une conversation entièrement libre.

« L’enjeu de Litté_Bot est aussi linguistique, précise Joël Huthwohl, directeur du département des Arts du spectacle à la BnF, car il s’agit de faire dialoguer deux langues françaises, celle du XVIIe siècle et celle d’aujourd’hui. »

NewsEye, un projet multilingue pour faciliter l’accès à la presse ancienne numérisée

Avec sept partenaires issus de quatre pays différents – dont les Bibliothèques nationales d’Autriche et de Finlande et plusieurs grandes universités européennes –, la BnF prend part depuis 2018 au projet NewsEye : A Digital Investigator for Historical Newspapers, financé par le programme-cadre de recherche et innovation Horizon 2020 de l’Union européenne. « Dans la continuité de projets antérieurs comme Europeana Newspapers, NewsEye a pour objectifs d’améliorer l’accès à la presse ancienne européenne numérisée et d’outiller ses utilisateurs à l’aide de technologies d’intelligence artificielle », explique Amanda Maunoury, qui est chargée du projet à la BnF.

Des chercheurs en informatique, mathématiques, sciences de l’information et de la communication, littérature et histoire y développent et testent des outils permettant d’analyser automatiquement le texte et la structure des journaux. Les chercheurs pourront plus facilement détecter des entités nommées, des événements, voire des opinions au sein de corpus de textes qui auront au préalable été enrichis sémantiquement. Ainsi sont imaginés des services adaptés aux nouveaux besoins de la recherche, à laquelle la massification des données disponibles ouvre des champs d’exploration inédits.

En savoir plus sur NewsEye

Au dépôt légal du web, une collecte spécifique sur l’intelligence artificielle

La BnF ne se contente pas d’implémenter des technologies d’intelligence artificielle pour le traitement et la diffusion de ses collections, elle se charge aussi, dans le cadre du dépôt légal numérique, de collecter les ressources qui traitent de l’IA sur le web. Durant l’été 2021, plus de 700 sites web ou comptes Twitter, sélectionnés au préalable par les départements de collections, ont ainsi été moissonnés par les robots de la BnF – ce qui représente plus de 10 millions d’URL. Ces ressources couvrent aussi bien les enjeux éthiques de l’IA que ses déclinaisons littéraires et artistiques, ses impacts socio-économiques ou ses applications scientifiques et techniques.

« Parmi les pages collectées, on trouve des contenus émanant de grandes figures de l’IA, comme les cours de Yann Le Cun au Collège de France, explique Isabelle Degrange, coordinatrice du dépôt légal du web au département Sciences et techniques, ainsi que des articles sur des applications de l’IA dans de nombreux domaines : médecine, industrie, urbanisme, astronomie ou même… gastronomie, avec un projet qui se compose d’une IA pour la création de recettes, d’un robot pour les réaliser et d’un réseau social de cuisiniers ! »

Datacatalogue, une expérimentation sur les catalogues de vente

Les nombreux catalogues de vente conservés dans les collections de la BnF constituent une source documentaire indispensable aux historiens de l’art. S’ils sont pour une partie d’entre eux disponibles en ligne dans Gallica, il est néanmoins difficile d’y effectuer des recherches efficaces, du fait de leur structure spécifique. Pour contourner cette difficulté, le département des Monnaies, médailles et antiques de la BnF, en association avec Jean-Philippe Moreux, expert scientifique Gallica au sein du département de la Coopération, a noué un partenariat avec l’Institut national d’histoire de l’art (INHA) et l’Institut national de recherche en sciences et technologies du numérique (Inria). L’enjeu du projet est de segmenter et structurer les données contenues dans les quelque 17 000 catalogues de vente numismatiques conservés dans les collections du département, à l’aide du logiciel GROBID (pour GeneRation Of BIbliographic Data).

« Le logiciel va d’abord traiter un très petit corpus de documents, puis nous corrigerons avec notre œil de numismate les jeux de données fournis, détaille Frédérique Duyrat, directrice du département des Monnaies, médailles et antiques. Nous pourrons peut-être ensuite entrer dans un processus plus industriel, mais il faut d’abord apprendre à la machine à traiter les particularités de ces documents et s’assurer qu’elle commet des erreurs limitées. »

Céline Leclaire et Mélanie Leroy-Terquem

Dossier paru dans Chroniques n° 93, janvier-mars 2021