Les projets de recherche – BnF DataLab

Dans le cadre de l’activité du BnF DataLab, la BnF et son partenaire Huma-Num ont  lancé en juin 2022 leur deuxième appel à projet conjoint. À destination des chercheurs qui souhaitent travailler sur les collections numériques de la BnF (collections numérisées ou nativement numériques), cet appel à projet propose, sur une durée de 1 an, un accueil au sein du BnF DataLab, un accompagnement scientifique et technique ainsi qu’un financement. 4 projets ont été sélectionnés par un jury composé de membres de la BnF, d’Huma-Num et du CNRS, et sont accueillis dans le BnF DataLab pour la période 2022-2023.

GénéAlgoPsy

Généalogie culturelle de la douleur psychique : expressions, usages, représentations

Porteur du projet

Astrid Chevance, psychiatre, cheffe de clinique assistante de l’université de Paris. UMR 1153 / CRESS - centre de recherche en Epidémiologie et Statistique, équipe METHODS

Présentation du projet

GénéAlgoPsy s’inscrit dans un vaste programme de recherche de 4 ans autour de la notion de douleur psychique. Façonné par les aliénistes au 19e siècle, qui la différencient alors de la douleur physique, la notion de douleur psychique disparaît progressivement de la littérature savante, et ne transparaît plus que dans les thèmes littéraires investis par la sensibilité romantique. Inscrit dans le champ des humanités médicales, GénéAlgoPsy vise à repérer et à caractériser l’émergence de la notion de « douleur psychique » en s’appuyant sur un corpus composé à la fois de textes littéraires et «savants» (provenant par exemple du domaine médical ou philosophique) et construire une histoire culturelle du concept. Cette recherche s’inscrit dans un programme de recherche interdisciplinaire qui, mêlant sciences humaines et sociales, humanités numériques et épidémiologie clinique, va permettre, à terme, de créer un outil de mesure de la douleur psychique afin d’améliorer  le diagnostic, le soin et le suivi des patients.

ADAPTMED

Adaptation automatique des textes médicaux

Porteur du projet

Amalia Todirascu, professeure des universités. UR 1339 / LiLPa - Linguistique, Langue, Parole, Université de Strasbourg

Présentation du projet

La pandémie Covid-19 a mené à l’apparition de nouveaux termes et à la multiplication de textes de vulgarisation scientifique pour le grand public (articles de presse, blogs, sites institutionnels…). Cette vulgarisation du discours scientifique, rendu intelligible pour le grand public tout en limitant la perte d’information, se construit grâce à une adaptation du discours et à l’utilisation de synonymes, des reformulations et des transformations syntaxiques assez facilement identifiables. S’appuyant sur la collecte Covid-19 des archives de l’internet de la BnF, le projet ADAPTMED veut se saisir de ce riche corpus pour développer un système d’adaptation automatique de textes médicaux en textes de vulgarisation scientifique. Le corpus COVID-19 des archives de l’internet permettra d’enrichir une base de données de termes médicaux et de leurs équivalents simplifiés (synonymes, paraphrase ou définition), qui servira de base à la création d’un système d’adaptation de textes, appliqué aux articles scientifiques sur le Covid 19.

HTRomance

Porteurs du projet

  • Thibault Clérice, post-doctorant. Centre Jean-Mabillon, Ecole nationale des chartes et INRIA
  • Alix Chagué, doctorante. ALMAnaCH, INRIA et Université de Montréal

Présentation du projet

L’objectif du projet HTRomance est d’évaluer et d’améliorer les techniques de reconnaissance d’écritures manuscrites (HTR) des manuscrits littéraires en latin et langues romanes, du XIème au XIXème siècle. Pour cela, le projet prévoit la production de données d’entraînement et de modèles de transcription résistants aux changements de mains, voire de langues. Il entend également produire des modèles de langues applicables à des documents en langues anciennes, ou à des états de langue anciens. Le choix du corpus de textes est guidé par la nécessité de diversifier les écritures cursives (mains) et les thèmes des documents. Ce projet vise également à produire un processus d’évaluation sur la correction des données HTR, en mesurant la lisibilité des documents et le temps de reprise manuelle.

Valorisation numérique du fonds Dulaurier

Porteurs du projet

  • Bernard Coulie, professeur. Institut orientaliste de Louvain, UCLouvain
  • Chahan Vidal-Gorène, collaborateur scientifique, Calfa
  • Bastien Kindt, collaborateur scientifique. Institut orientaliste de Louvain, UCLouvain - projet GREgORI

Présentation du projet

Le projet poursuit plusieurs objectifs. Il s’agit tout d’abord de rendre accessible aux chercheurs la transcription des manuscrits du fonds Dulaurier de la BnF en utilisant les techniques de reconnaissance automatique d’écriture manuscrites (HTR). Ce fonds, constitué de manuscrits arméniens copiés ou fait copiés par Edouard Dulaurier (1807-1881), représente également l’opportunité de développer les technologies de traitement automatique des documents arméniens, encore à ses balbutiements. Par conséquent, ce projet se propose aussi d’être une preuve de concept d’un modus operandi pour le traitement de langues peu dotées, notamment celles à graphie non latine, et qui offrent pour le moment peu de données d’apprentissage.

 

Années précédentes

Parmi les 21 projets réceptionnés, 5 ont été sélectionnés par un jury composé de membres de la BnF, d’Huma-Num et du CNRS, et ont été accueillis dans le BnF DataLab pour la période 2021-2022.

AUREJ

Accès Unifié aux REssources de la Jouabilité 
Porteur du projet

Fabrice Pirolli, maître de conférences HDR en Sciences de l’Information et de la Communication - Le Mans Université / IUT de Laval

Présentation du projet

Le projet AUREJ (Accès Unifié aux REssources de la Jouabilité) se penche sur de nouvelles modalités d’exploitation des collections qui environnent le jeu vidéo : sources documentaires de type presse, vidéos de jeu, bande son… autant de ressources, documentaires et matérielles conservées par la BnF, mais dont la consultation sur un seul et même environnement soulève des contraintes techniques encore difficiles à surmonter. Le projet vise notamment une analyse transversale du corpus hétérogène ainsi constitué (jeux, supports, matériels, presse spécialisé, cédéroms, enregistrements vidéo, etc.) afin de dégager les fondements techniques et pratiques qui permettraient de proposer aux usagers un accès unifié aux ressources, en particulier pour les publics de chercheurs.

GallicaEnv

Porteurs du projet
  • Guillaume Sapriel, maître de conférences - Université de Paris-Saclay/Versailles Saint-Quentin-en-Yvelines (UVSQ)
  • Grégory Quenet, professeur des universités (1re classe) en histoire de l’environnement - Université de Paris-Saclay/Versailles Saint-Quentin-en-Yvelines (UVSQ)

Présentation du projet

La notion d’environnement, dans son acception actuelle, est relativement récente. La notion même est absente des catalogues, rendant difficile la constitution de corpus autour de cette notion. À travers les collections de Gallica, le projet GallicaEnv a pour objectif d’étudier l’émergence et la viralité de cette notion, à l’aide de techniques d’intelligence artificielle (apprentissage profond). L’enjeu est donc ici double, puisqu’il s’agit d’expérimenter la possibilité de construire un corpus thématique à l’aide d’une intelligence artificielle, mais aussi les points d’entrée dans les collections en enrichissant les métadonnées existantes et en développant une méthodologie de recherche sémantique. Les résultats de ces recherches (métadonnées, corpus, outils, articles) seront ensuite mis à disposition du public et des chercheurs. 

BUZZ-F

Porteur du projet

Valérie Schafer, professeure d’histoire européenne contemporaine - Université du Luxembourg, C²DH (Luxembourg Centre for Contemporary and Digital History)

Présentation du projet

Le projet BUZZ-F se propose d’étudier l’histoire des phénomènes de viralité et de circulation des contenus en ligne depuis les années 1990 à nos jours. Se fondant notamment sur la collecte COVID-19 menée par les équipes du dépôt légal du web et à travers l’analyse d’exemples précis (mèmes, gifs, vidéos de danse ou d’applaudissement…), le projet se donne pour objectif de reconstituer ces phénomènes relevant d’une culture numérique largement internationalisée à partir des traces nécessairement partielles laissées dans les archives web. La méthodologie retenue articulera analyse des plateformes de buzz, cartographie des circulations et repérage des « fantômes », c’est-à-dire de contenus absents des collections mais dont la diffusion massive a pu générer de multiples traces plus indirectes dans l’archive. La méthodologie et les résultats de recherche produits seront partagés dans le respect du droit d’auteur et viendront alimenter les échanges conduits dans le cadre des projets WARCnet, HIVI et Mars IMPERIUM.

AGODA

Analyse sémantique et Graphes relationnels pour l’Ouverture et l’étude des Débats à l’Assemblée nationale
Porteurs du projet
  • Pierre Vernus, maître de conférences en histoire contemporaine - Université Lumière Lyon 2
  • Marie Puren, enseignante-chercheuse en histoire et humanités numériques - Epitech Paris, laboratoire « Méthodes numériques pour les Sciences de l’Humain et de la Société »

Présentation du projet

Le projet AGODA propose une plateforme de consultation et d’exploration des débats parlementaires de la Chambre des députés, sur la période 1881-1940. Cette source, très riche en informations sur l’histoire politique et sociale, présente, par sa volumétrie et la formalisation des publications, un abord difficile pour la recherche et l’appréhension globale.
L’objectif du projet AGODA est de proposer par le biais d’une plateforme de consultation, non seulement un accès enrichi aux données numériques (correction, enrichissement, interopérabilité), mais aussi de mettre à disposition des outils pour l’exploitation de ces données (fouille, analyse, indexation).

Gallic(orpor)a

extraction, annotation et diffusion de l’information textuelle et visuelle en diachronie longue
Porteurs du projet
  • Benoît Sagot, directeur de recherche - INRIA
  • Simon Gabay, maître-assistant (humanités numériques) - Université de Genève
  • Jean-Baptiste Camps, maître de conférences - École nationale des chartes

Présentation du projet

Le projet Gallic(orpor)a propose de mettre en place une chaîne de traitement des documents anciens de Gallica, des premiers manuscrits aux imprimés révolutionnaires, afin de permettre aux chercheurs d’accéder non seulement aux extractions de textes (OCR, HTR) et aux images, mais également à des données enrichies. La chaîne de traitement mise en place proposera une annotation fine des documents, un enrichissement des données ainsi qu’une transcription en XML-TEI, autorisant ainsi des usages tels que la constitution de cartes, de graphiques, l’extraction d’entités nommées…