Les projets de recherche – BnF DataLab
GénéAlgoPsy
Porteur du projet
Astrid Chevance, psychiatre, cheffe de clinique assistante de l’université de Paris. UMR 1153 / CRESS - centre de recherche en Epidémiologie et Statistique, équipe METHODS
Présentation du projet
GénéAlgoPsy s’inscrit dans un vaste programme de recherche de 4 ans autour de la notion de douleur psychique. Façonné par les aliénistes au 19e siècle, qui la différencient alors de la douleur physique, la notion de douleur psychique disparaît progressivement de la littérature savante, et ne transparaît plus que dans les thèmes littéraires investis par la sensibilité romantique. Inscrit dans le champ des humanités médicales, GénéAlgoPsy vise à repérer et à caractériser l’émergence de la notion de « douleur psychique » en s’appuyant sur un corpus composé à la fois de textes littéraires et «savants» (provenant par exemple du domaine médical ou philosophique) et construire une histoire culturelle du concept. Cette recherche s’inscrit dans un programme de recherche interdisciplinaire qui, mêlant sciences humaines et sociales, humanités numériques et épidémiologie clinique, va permettre, à terme, de créer un outil de mesure de la douleur psychique afin d’améliorer le diagnostic, le soin et le suivi des patients.
ADAPTMED
Porteur du projet
Amalia Todirascu, professeure des universités. UR 1339 / LiLPa - Linguistique, Langue, Parole, Université de Strasbourg
Présentation du projet
La pandémie Covid-19 a mené à l’apparition de nouveaux termes et à la multiplication de textes de vulgarisation scientifique pour le grand public (articles de presse, blogs, sites institutionnels…). Cette vulgarisation du discours scientifique, rendu intelligible pour le grand public tout en limitant la perte d’information, se construit grâce à une adaptation du discours et à l’utilisation de synonymes, des reformulations et des transformations syntaxiques assez facilement identifiables. S’appuyant sur la collecte Covid-19 des archives de l’internet de la BnF, le projet ADAPTMED veut se saisir de ce riche corpus pour développer un système d’adaptation automatique de textes médicaux en textes de vulgarisation scientifique. Le corpus COVID-19 des archives de l’internet permettra d’enrichir une base de données de termes médicaux et de leurs équivalents simplifiés (synonymes, paraphrase ou définition), qui servira de base à la création d’un système d’adaptation de textes, appliqué aux articles scientifiques sur le Covid 19.
HTRomance
Porteurs du projet
- Thibault Clérice, post-doctorant. Centre Jean-Mabillon, Ecole nationale des chartes et INRIA
- Alix Chagué, doctorante. ALMAnaCH, INRIA et Université de Montréal
Présentation du projet
L’objectif du projet HTRomance est d’évaluer et d’améliorer les techniques de reconnaissance d’écritures manuscrites (HTR) des manuscrits littéraires en latin et langues romanes, du XIème au XIXème siècle. Pour cela, le projet prévoit la production de données d’entraînement et de modèles de transcription résistants aux changements de mains, voire de langues. Il entend également produire des modèles de langues applicables à des documents en langues anciennes, ou à des états de langue anciens. Le choix du corpus de textes est guidé par la nécessité de diversifier les écritures cursives (mains) et les thèmes des documents. Ce projet vise également à produire un processus d’évaluation sur la correction des données HTR, en mesurant la lisibilité des documents et le temps de reprise manuelle.
Valorisation numérique du fonds Dulaurier
Porteurs du projet
- Bernard Coulie, professeur. Institut orientaliste de Louvain, UCLouvain
- Chahan Vidal-Gorène, collaborateur scientifique, Calfa
- Bastien Kindt, collaborateur scientifique. Institut orientaliste de Louvain, UCLouvain - projet GREgORI
Présentation du projet
Le projet poursuit plusieurs objectifs. Il s’agit tout d’abord de rendre accessible aux chercheurs la transcription des manuscrits du fonds Dulaurier de la BnF en utilisant les techniques de reconnaissance automatique d’écriture manuscrites (HTR). Ce fonds, constitué de manuscrits arméniens copiés ou fait copiés par Edouard Dulaurier (1807-1881), représente également l’opportunité de développer les technologies de traitement automatique des documents arméniens, encore à ses balbutiements. Par conséquent, ce projet se propose aussi d’être une preuve de concept d’un modus operandi pour le traitement de langues peu dotées, notamment celles à graphie non latine, et qui offrent pour le moment peu de données d’apprentissage.
Années précédentes
AUREJ
Fabrice Pirolli, maître de conférences HDR en Sciences de l’Information et de la Communication - Le Mans Université / IUT de Laval
Présentation du projet
Le projet AUREJ (Accès Unifié aux REssources de la Jouabilité) se penche sur de nouvelles modalités d’exploitation des collections qui environnent le jeu vidéo : sources documentaires de type presse, vidéos de jeu, bande son… autant de ressources, documentaires et matérielles conservées par la BnF, mais dont la consultation sur un seul et même environnement soulève des contraintes techniques encore difficiles à surmonter. Le projet vise notamment une analyse transversale du corpus hétérogène ainsi constitué (jeux, supports, matériels, presse spécialisé, cédéroms, enregistrements vidéo, etc.) afin de dégager les fondements techniques et pratiques qui permettraient de proposer aux usagers un accès unifié aux ressources, en particulier pour les publics de chercheurs.
GallicaEnv
- Guillaume Sapriel, maître de conférences - Université de Paris-Saclay/Versailles Saint-Quentin-en-Yvelines (UVSQ)
- Grégory Quenet, professeur des universités (1re classe) en histoire de l’environnement - Université de Paris-Saclay/Versailles Saint-Quentin-en-Yvelines (UVSQ)
Présentation du projet
La notion d’environnement, dans son acception actuelle, est relativement récente. La notion même est absente des catalogues, rendant difficile la constitution de corpus autour de cette notion. À travers les collections de Gallica, le projet GallicaEnv a pour objectif d’étudier l’émergence et la viralité de cette notion, à l’aide de techniques d’intelligence artificielle (apprentissage profond). L’enjeu est donc ici double, puisqu’il s’agit d’expérimenter la possibilité de construire un corpus thématique à l’aide d’une intelligence artificielle, mais aussi les points d’entrée dans les collections en enrichissant les métadonnées existantes et en développant une méthodologie de recherche sémantique. Les résultats de ces recherches (métadonnées, corpus, outils, articles) seront ensuite mis à disposition du public et des chercheurs.
BUZZ-F
Porteur du projet
Valérie Schafer, professeure d’histoire européenne contemporaine - Université du Luxembourg, C²DH (Luxembourg Centre for Contemporary and Digital History)
Présentation du projet
Le projet BUZZ-F se propose d’étudier l’histoire des phénomènes de viralité et de circulation des contenus en ligne depuis les années 1990 à nos jours. Se fondant notamment sur la collecte COVID-19 menée par les équipes du dépôt légal du web et à travers l’analyse d’exemples précis (mèmes, gifs, vidéos de danse ou d’applaudissement…), le projet se donne pour objectif de reconstituer ces phénomènes relevant d’une culture numérique largement internationalisée à partir des traces nécessairement partielles laissées dans les archives web. La méthodologie retenue articulera analyse des plateformes de buzz, cartographie des circulations et repérage des « fantômes », c’est-à-dire de contenus absents des collections mais dont la diffusion massive a pu générer de multiples traces plus indirectes dans l’archive. La méthodologie et les résultats de recherche produits seront partagés dans le respect du droit d’auteur et viendront alimenter les échanges conduits dans le cadre des projets WARCnet, HIVI et Mars IMPERIUM.
AGODA
- Pierre Vernus, maître de conférences en histoire contemporaine - Université Lumière Lyon 2
- Marie Puren, enseignante-chercheuse en histoire et humanités numériques - Epitech Paris, laboratoire « Méthodes numériques pour les Sciences de l’Humain et de la Société »
Présentation du projet
Le projet AGODA propose une plateforme de consultation et d’exploration des débats parlementaires de la Chambre des députés, sur la période 1881-1940. Cette source, très riche en informations sur l’histoire politique et sociale, présente, par sa volumétrie et la formalisation des publications, un abord difficile pour la recherche et l’appréhension globale.
L’objectif du projet AGODA est de proposer par le biais d’une plateforme de consultation, non seulement un accès enrichi aux données numériques (correction, enrichissement, interopérabilité), mais aussi de mettre à disposition des outils pour l’exploitation de ces données (fouille, analyse, indexation).
Gallic(orpor)a
- Benoît Sagot, directeur de recherche - INRIA
- Simon Gabay, maître-assistant (humanités numériques) - Université de Genève
- Jean-Baptiste Camps, maître de conférences - École nationale des chartes
Présentation du projet
Le projet Gallic(orpor)a propose de mettre en place une chaîne de traitement des documents anciens de Gallica, des premiers manuscrits aux imprimés révolutionnaires, afin de permettre aux chercheurs d’accéder non seulement aux extractions de textes (OCR, HTR) et aux images, mais également à des données enrichies. La chaîne de traitement mise en place proposera une annotation fine des documents, un enrichissement des données ainsi qu’une transcription en XML-TEI, autorisant ainsi des usages tels que la constitution de cartes, de graphiques, l’extraction d’entités nommées…