L’établissement inaugure le BnF DataLab

Le BnF DataLab est un service à destination des chercheurs qui souhaitent travailler sur les collections numériques de la BnF. Ces collections, dont la maîtrise combine compétences bibliographiques et techniques, sont en effet particulièrement complexes à appréhender et demandent parfois divers niveaux d’expertise.

Le BnF DataLab, né d’un partenariat entre l’infrastructure de recherche du CNRS, Huma-Num, et la Bibliothèque nationale de France, a ouvert ses portes en octobre 2021.

 

Présentation du Data Lab © Élie Ludwig / BnF

La genèse du BnF DataLab

La multiplication des demandes de corpus massifs, multimodaux, hétérogènes, a favorisé une réflexion sur les services que la BnF pouvait offrir. Dans son contrat d’objectifs et de performance 2017-2021 signé avec le ministère de la Culture, l’institution se fixe alors pour objectif d’« offrir aux chercheurs, dans les emprises de la Bibliothèque, des outils de fouille et d’exploration de textes et de données sur des corpus numériques de la BnF ». Cette réflexion a d’abord pris la forme d’un projet de recherche interne, puis de la définition de nouveaux services dédiés et, enfin, de l’aménagement d’un espace d’accueil : le BnF DataLab.

Pour réaliser cet objectif, la BnF a procédé de manière expérimentale, itérative et transversale, à travers un programme de recherche, dénommé Corpus,inscrit au plan quadriennal et conduit entre 2016 et 2019. Découpé en deux phases, le projet Corpus a entamé une phase exploratoire autour de projets de recherche existants afin d’expérimenter un service de fourniture de données dans trois grands ensembles documentaires : les données de Gallica, les archives du Web, les métadonnées du catalogue général. En parallèle à ces explorations, une enquête de besoins permettait d’esquisser une offre de service en se basant sur des entretiens et en définissant des archétypes utilisateurs (« personas »). Cette étude faisait le constat que la fouille de données est appelée à se développer dans toutes les disciplines.

De ces enquêtes et ateliers émerge le besoin d’un lieu identifié pour accueillir des chercheurs travaillant sur les corpus numériques, afin de permettre non seulement l’échange et la rencontre entre chercheurs et experts BnF, mais aussi la consultation des corpus sous droits et la mise en place d’une infrastructure informatique dédiée.

La salle X, en Rez-de-jardin du site François-Mitterrand, a été choisie pour accueillir les espaces du BnF DataLab. Gérée par le département de la Découverte des collections et de l’accompagnement à la recherche (DCA), auparavant département de l’Orientation et de la Recherche bibliographique (ORB), la salle X est l’héritière de la salle des catalogues de l’ancienne Bibliothèque nationale à Richelieu, lieu pluridisciplinaire où sont rassemblés les outils nécessaires au repérage dans les collections. Sa vocation à l’interdisciplinarité autant que les services autour de la recherche bibliographique mis en place de longue date par les équipes du DCA (chat, rendez-vous en ligne, ateliers « Préparer sa thèse à la BNF », Sindbad) en ont fait le lieu prédisposé à héberger le BnF DataLab.

La configuration de la salle X, avec mezzanine, a permis d’aménager deux niveaux, distincts mais complémentaires, consacrés à l’étude et à l’analyse de corpus numériques. En partie basse, des bureaux et salles de travail de 4 à 8 places, ainsi qu’une salle de formation de 12 places, autorisent des usages collectifs. Sur la mezzanine, des box individuels équipés sont réservés au travail personnel tandis qu’un espace central ouvert peut accueillir des événements scientifiques, telles que des démonstrations, des présentations de travaux de recherche ou encore des ateliers. Une telle configuration rompt avec les traditionnelles salles de lecture silencieuses de la Bibliothèque, obligeant à imaginer des usages mixtes, en bonne cohabitation avec les autres usagers de la salle. Le BnF DataLab est ainsi porteur d’une ambition qui dépasse les services proposés : celle d’un lieu de sociabilité scientifique. Ce lieu, espace physique d’échange et de travail, est doublé d’un espace virtuel pluriel : une infrastructure numérique accessible sur place et à distance, un site documentant l’usage des API et publiant des jeux de données sous licence Etalab.

Dès l’origine, le développement du BnF DataLab a été pensé pour travailler en partenariat avec des chercheurs de différents profils et rattachés à différentes institutions scientifiques. Complémentaire de l’offre de collections et des services numériques de la BnF, le partenariat avec la TGIR Huma-Num permet aux chercheurs de bénéficier de compétences et de dispositifs permettant le traitement, la conservation, l’accès et l’interopérabilité des données de la recherche en lettres et SHS. D’autres partenariats scientifiques avec des acteurs de la recherche en humanités numériques sont à l’étude.

Un premier appel à projets

Un appel à projets a été lancé en juin 2021. Parmi les 21 projets réceptionnés, 5 ont été sélectionnés par un jury composé de membres de la BnF, d’Huma-Num et du CNRS, et sont accueillis dans le BnF DataLab sur la période 2021-2022 :

  • AUREJ (Accès Unifié aux REssources de la Jouabilité) propose de nouvelles modalités d’exploitation des collections qui environnent le jeu vidéo ;
  • GALLICAENV étudie l’émergence et la viralité de la notion d’environnement. La notion d’environnement, dans son acception actuelle, est relativement récente. À travers les collections de Gallica, le projet GallicaEnv a pour objectif d’étudier l’histoire de cette notion, à l’aide de techniques d’apprentissage profond ;
  • BUZZ-F étudie l’histoire des phénomènes de viralité et de circulation des contenus en ligne depuis les années 1990 à nos jours, en se fondant sur la collecte Covid-19 réalisée par la BnF de 2020 à 2022 pendant la crise sanitaire : le projet cherche à analyser des plateformes de buzz (mèmes, gifs, vidéos), à cartographier les circulations d’informations et à repérer l’absence de certains contenus (« fantômes ») ;
  • AGODA (Analyse sémantique et Graphes relationnels pour l’Ouverture et l’étude des Débats à l’Assemblée nationale) propose une plateforme de consultation et d’exploration des débats parlementaires de la Chambre des députés, sur la période 1881-1940, avec un accès enrichi aux données numériques (correction, enrichissement, interopérabilité) et la mise à disposition d’outils pour l’exploitation de ces données (fouille, analyse, indexation)
  • Gallic(orpor)a entend mettre en place une chaîne de traitement des documents anciens de Gallica pour permettre aux chercheurs d’accéder non seulement aux extractions de textes (OCR, HTR) et aux images, mais également à des données enrichies. La chaîne de traitement proposera une annotation fine des documents, un enrichissement des données ainsi qu’une transcription en XML-TEI.

Un espace pour échanger entre chercheurs

Après plusieurs mois de travaux et de mobilisation des équipes, le BnF DataLab a ouvert ses portes le 18 octobre. À cette occasion, la BnF a organisé plusieurs manifestations scientifiques et des ateliers de découverte en vue de présenter les différents services et les projets lauréats de l’appel à projet.

L’espace du BnF DataLab permet également d’accueillir des ateliers collectifs de travail. Fin 2021, il a ainsi permis de rassembler les participants à un « transcrithon » destiné à transcrire, analyser et éditer les dix-sept carnets de notes du savant voyageur Antoine d’Abbadie, qui séjourna en Éthiopie de 1840 à 1852, projet inscrit au plan quadriennal de la Recherche 2020-2023 de la BnF.

Rapport d’activité 2021 de la bnF
Consulter