De l’IA dans le moteur
Docteur en mathématiques appliquées et en informatique, Louis Falissard travaille sur les modèles de traitement du langage naturel, dans le domaine de l’intelligence artificielle (IA). Depuis l’automne 2022, dans le cadre d’un contrat postdoctoral cofinancé par la BnF et Sorbonne Université, il mène un projet destiné à améliorer le moteur de recherche de Gallica. Portrait d’un chercheur qui fonctionne à l’instinct.
Pour désigner la capacité à se trouver au bon endroit au bon moment, la langue anglaise a un mot, happenstance. C’est le terme qui vient à l’esprit quand Louis Falissard résume la trajectoire qui l’a mené de l’École centrale de Lille à la BnF, en passant par l’université d’Oxford. À chaque étape de son parcours, le choix de la discipline étudiée (maths-info) et de ses champs d’application (santé, puis moteurs de recherche) précède de peu un changement de paradigme majeur dans le domaine concerné.
De la biostatistique à la bibliothéconomie
Après un master de recherche en deep learning, Louis Falissard commence une thèse portant sur les méthodes d’apprentissage profond en épidémiologie… juste avant le déclenchement de la pandémie de Covid-19. « En mathématiques, le temps qui s’écoule entre la recherche et sa potentielle application est souvent très long. Mais dans mon cas, le Covid a donné un énorme coup d’accélérateur », raconte-t-il. Quand arrive le premier confinement en mars 2020, le prototype de traitement automatique des certificats de décès, développé dans le cadre de sa thèse, est utilisé par le Centre d’épidémiologie sur les causes médicales de décès (CépiDc) et permet de faciliter la production des statistiques de comorbidités relatives aux décès liés à la pandémie. Centrés sur des développements fondés sur les modèles de langage naturel, les travaux de Louis Falissard peuvent s’appliquer à d’autres domaines que celui de la santé. Ainsi passe-t-il, presque du jour au lendemain, des ontologies médicales à la bibliothéconomie : « Après avoir fait semblant d’être épidémiologiste pendant ma thèse, je fais aujourd’hui semblant de maîtriser les notices d’autorité comme si j’étais expert en catalogage ! », s’amuse le chercheur qui n’avait jusque-là franchi les portes de la BnF qu’une seule fois, « en maths sup, pour bosser ».
Une nouvelle ère pour les moteurs de recherche ?
Car à l’heure où Gallica fête ses 25 ans d’existence et la mise en ligne de son dix-millionième document, des études d’usage montrent qu’une partie des documents disponibles en ligne reste méconnue et peu consultée par les internautes. Une meilleure découvrabilité des collections numérisées passe notamment par l’amélioration du moteur de recherche de Gallica à laquelle travaille Louis Falissard, dans le cadre d’un partenariat entre la BnF et le Sorbonne Center for Artificial Intelligence (SCAI) de Sorbonne Université.
Là encore, happenstance : le démarrage du projet coïncide avec lancement d’un outil dont le nom est sur toutes les lèvres, Chat GPT, alors que se multiplient les annonces prédisant l’entrée dans une nouvelle ère des moteurs de recherche. En février dernier, Microsoft déclare être en mesure de réinventer la recherche dans Bing et Edge grâce aux technologies d’intelligence artificielle, tandis que Google présente Bard, le robot conversationnel destiné à intégrer son moteur. À côté de la course effrénée dans laquelle les Gafa sont engagés, la réflexion de la BnF privilégie une approche éthique de l’IA. Il s’agit de proposer des itinéraires pertinents aux internautes qui consultent Gallica, en évitant de les enfermer dans le champ de leurs recherches de prédilection et en respectant la confidentialité de leurs données. « L’enjeu n’est pas de deviner ce que les utilisateurs de Gallica recherchent, mais plutôt de les solliciter pour qu’ils affinent leur requête, explique Louis Falissard. Quand ils tapent “Flaubert” dans la barre de saisie, cherchent-ils un roman de Flaubert, les critiques de son oeuvre dans la presse de l’époque ou les correspondances adressées à l’écrivain ? Une IA conversationnelle peut aider à clarifier la question posée pour classer efficacement les réponses apportées par le moteur. » Pour cela, le chercheur s’appuie sur les données descr ipt ives des documents, contenues dans les catalogues de la BnF, et sur les traces des utilisateurs de Gallica fournies par les logs de connexion collectés en 2022 et anonymisés. « Ça n’est pas de la magie, ça reste des mathématiques. Des maths empiriques, mais des maths quand même. »
Propos recueillis par Mélanie Leroy-Terquem
Entretien paru dans Chroniques n° 97, avril-juillet 2023