Les projets de recherche

Dans le cadre de l’ouverture du BnF DataLab, la BnF et son partenaire Huma-Num ont  lancé en juin 2021 leur premier appel à projet conjoint. A destination des chercheurs qui souhaitent travailler sur les collections numériques de la BnF (collections numérisées ou nativement numériques), cet appel à projet propose, sur une durée de 1 an, un accueil au sein du BnF DataLab, un accompagnement scientifique et technique ainsi qu’un financement.

 

Parmi les 21 projets réceptionnés, 5 ont été sélectionnés par un jury composé de membres de la BnF, d’Huma-Num et du CNRS, et seront donc accueillis dans le BnF DataLab pour la période 2021-2022.

AUREJ

Accès Unifié aux REssources de la Jouabilité 
Porteurs du projet :
  • Fabrice Pirolli, maître de conférences HDR en Sciences de l’Information et de la Communication - Le Mans Université / IUT de Laval

Le projet AUREJ (Accès Unifié aux REssources de la Jouabilité) se penche sur de nouvelles modalités d’exploitation des collections qui environnent le jeu vidéo : sources documentaires de type presse, vidéos de jeu, bande son… autant de ressources, documentaires et matérielles conservées par la BnF, mais dont la consultation sur un seul et même environnement soulève des contraintes techniques encore difficiles à surmonter. Le projet vise notamment une analyse transversale du corpus hétérogène ainsi constitué (jeux, supports, matériels, presse spécialisé, cédéroms, enregistrements vidéo, etc.) afin de dégager les fondements techniques et pratiques qui permettraient de proposer aux usagers un accès unifié aux ressources, en particulier pour les publics de chercheurs.

 

GallicaEnv

Porteurs du projet :
  • Guillaume Sapriel, maître de conférences - Université de Paris-Saclay/Versailles Saint-Quentin-en-Yvelines (UVSQ)
  • Grégory Quenet, professeur des universités (1re classe) en histoire de l’environnement - Université de Paris-Saclay/Versailles Saint-Quentin-en-Yvelines (UVSQ)

La notion d’environnement, dans son acception actuelle, est relativement récente. La notion même est absente des catalogues, rendant difficile la constitution de corpus autour de cette notion. À travers les collections de Gallica, le projet GallicaEnv a pour objectif d’étudier l’émergence et la viralité de cette notion, à l’aide de techniques d’intelligence artificielle (apprentissage profond). L’enjeu est donc ici double, puisqu’il s’agit d’expérimenter la possibilité de construire un corpus thématique à l’aide d’une intelligence artificielle, mais aussi les points d’entrée dans les collections en enrichissant les métadonnées existantes et en développant une méthodologie de recherche sémantique. Les résultats de ces recherches (métadonnées, corpus, outils, articles) seront ensuite mis à disposition du public et des chercheurs. 

BUZZ-F

Porteur du projet :
  • Valérie Schafer, professeure d’histoire européenne contemporaine - Université du Luxembourg, C²DH (Luxembourg Centre for Contemporary and Digital History)

Le projet BUZZ-F se propose d’étudier l’histoire des phénomènes de viralité et de circulation des contenus en ligne depuis les années 1990 à nos jours. Se fondant notamment sur la collecte COVID-19 menée par les équipes du dépôt légal du web et à travers l’analyse d’exemples précis (mèmes, gifs, vidéos de danse ou d’applaudissement…), le projet se donne pour objectif de reconstituer ces phénomènes relevant d’une culture numérique largement internationalisée à partir des traces nécessairement partielles laissées dans les archives web. La méthodologie retenue articulera analyse des plateformes de buzz, cartographie des circulations et repérage des « fantômes », c’est-à-dire de contenus absents des collections mais dont la diffusion massive a pu générer de multiples traces plus indirectes dans l’archive. La méthodologie et les résultats de recherche produits seront partagés dans le respect du droit d’auteur et viendront alimenter les échanges conduits dans le cadre des projets WARCnet, HIVI et Mars IMPERIUM.

AGODA

Analyse sémantique et Graphes relationnels pour l’Ouverture et l’étude des Débats à l’Assemblée nationale
Porteurs du projet :
  • Pierre Vernus, maître de conférences en histoire contemporaine - Université Lumière Lyon 2
  • Marie Puren, enseignante-chercheuse en histoire et humanités numériques - Epitech Paris, laboratoire « Méthodes numériques pour les Sciences de l’Humain et de la Société »

Le projet AGODA propose une plateforme de consultation et d’exploration des débats parlementaires de la Chambre des députés, sur la période 1881-1940. Cette source, très riche en informations sur l’histoire politique et sociale, présente, par sa volumétrie et la formalisation des publications, un abord difficile pour la recherche et l’appréhension globale.
L’objectif du projet AGODA est de proposer par le biais d’une plateforme de consultation, non seulement un accès enrichi aux données numériques (correction, enrichissement, interopérabilité), mais aussi de mettre à disposition des outils pour l’exploitation de ces données (fouille, analyse, indexation).

Gallic(orpor)a

extraction, annotation et diffusion de l’information textuelle et visuelle en diachronie longue
Porteurs du projet :
  • Benoît Sagot, directeur de recherche - INRIA
  • Simon Gabay, maître-assistant (humanités numériques) - Université de Genève
  • Jean-Baptiste Camps, maître de conférences - École nationale des chartes

Le projet Gallic(orpor)a propose de mettre en place une chaîne de traitement des documents anciens de Gallica, des premiers manuscrits aux imprimés révolutionnaires, afin de permettre aux chercheurs d’accéder non seulement aux extractions de textes (OCR, HTR) et aux images, mais également à des données enrichies. La chaîne de traitement mise en place proposera une annotation fine des documents, un enrichissement des données ainsi qu’une transcription en XML-TEI, autorisant ainsi des usages tels que la constitution de cartes, de graphiques, l’extraction d’entités nommées…