Les projets accueillis – BnF DataLab
Un accompagnement ponctuel selon les besoins
Tout au long de l’année, l’équipe du BnF DataLab répond à des demandes provenant de profils de recherche variés, du niveau master à celui d’une équipe de recherche aguerrie.
Pour des sollicitations soumises au fil de l’eau, il s’agit par exemple pour le BnF DataLab de :
- répondre à des demandes de formations, notamment sur les archives du web ;
- apporter une aide à la recherche bibliographique et la constitution de corpus ;
- mettre à disposition des corpus numériques, souvent extraits de Gallica.
Les nombreux cas d’usage relèvent de domaines tels que l’histoire, la littérature, de travaux sur la presse ancienne, de transcription ou de publication de manuscrits.
À partir d’une première prise de contact par mail ou par formulaire, l’équipe BnF DataLab examine chaque sujet de recherche pour conseiller au mieux sur les possibilités en matière d’exploration des collections et de constitution de corpus.
L’appel à projet BnF DataLab, un accompagnement renforcé
Chaque année la BnF et l’IR* Huma-Num diffusent un appel à projet auprès de la communauté scientifique. À destination des chercheurs qui souhaitent travailler sur les collections numériques de la BnF (collections numérisées ou nativement numériques), cet appel à projet propose, sur une durée de 12 à 18 mois selon les projets, un accueil au sein du BnF DataLab, un accompagnement scientifique et technique ainsi qu’un financement.
Un jury extérieur au BnF DataLab, composés d’experts issus de la BnF et de l’IR* Huma-Num sélectionne les lauréats en fonction de critères scientifiques et techniques. Pour chaque projet, portant impérativement sur les collections numériques de la BnF, l’originalité de la problématique de recherche ainsi que les enjeux en matière de défi technologique sont déterminants.
Les objectifs de l’appel sont doubles :
- encourager des projets innovants de recherche de fouille de textes et de données sur les collections numériques de la BnF ;
- permettre à la BnF de mieux cerner les pratiques numériques de recherche autour de ces collections et approfondir son expertise pour développer ou parfaire les outils qu’elle met à disposition.
Pour être informé du lancement de l’appel à projet ou suivre les activités des projets lauréats, rendez-vous dans les actualités du BnF DataLab. Les publications en lien avec les projets sont consultables dans la collection HAL BnF DataLab.
Projets lauréats en cours
WO(RK) IN PROGRESS.
Pour un catalogue numérique des dessins de Wolfgang Hambuger dit Wo (1917-1940)
Nathalie Raoux, chercheuse. UMR 8131 - Centre Georg Simmel, EHESS et CNRS.
Le projet vise à reconstituer, analyser et mettre en lumière l’œuvre du dessinateur et caricaturiste juif Wolfgang Hamburger, dit Wo (1917-1940), tombé dans l’oubli et dont la production n’a jamais été réunie ni étudiée. Construit à partir d’archives de première main, il développe un catalogue numérique raisonné, appelé à prendre la forme d’une collection enrichie, ainsi qu’une chronologie critique des dessins connus de l’artiste.
L’ensemble de ses dessins de presse constitue une traversée en coupe des années 1930 : nazisme, guerre d’Espagne, guerre sino-japonaise, accords de Munich, condition des exilés… Aussi, par-delà le seul sauvetage de la vie et de l’œuvre de Wo, la mise à disposition de ces dessins offre-t-elle une ressource documentaire de premier ordre pour les chercheurs, les historien·ne·s et les enseignants du secondaire, et ouvre un espace renouvelé pour l’histoire culturelle, visuelle et politique du XXᵉ siècle à travers le dessin de presse.
Modélisation d’un corpus littéraire à des fins de remédiation des archives du web littéraire
- Servanne Monjour, maîtresse de conférences. UMR 8599 – CELLF, Sorbonne Université et CNRS.
- Nicolas Sauret, maître de conférences. EA 349 - Paragraphe, Université Paris 8.
Ce projet de recherche et développement vise à concevoir une solution innovante de modélisation et de remédiation des archives du Web littéraire, à partir d’un dispositif informatique de forge logicielle (GIT), dans une perspective de sobriété numérique et de minimal computing.
Nous développerons ce projet autour des archives du collectif littéraire Général Instin (GI). Né dans les années 1990, le projet GI cristallise les principaux enjeux conceptuels des corpus éditorialisés : dissémination, autorité multiple, fragmentation, écritures en mouvement. Le GI incarne ainsi les mutations de la création littéraire numérique accompagnant l’histoire du Web.
Là où les Archives de l’Internet ont édité de nombreux parcours guidés fondés sur approche par « auteur » et par « site », nous proposons d’établir un modèle alternatif, fondé sur une approche par projet éditorialisé. Puisque cette littérature est caractérisée par sa dimension fortement performative, nous proposons d’envisager sa remédiation en nous inspirant des « parcours signés » imaginés par Bernard Stiegler. Pour effectuer ce travail de modélisation et de remédiation, nous mobiliserons un dispositif de forge logicielle (GIT/Gitlab), en tant que dispositif éditorial.
AljamiadoTech
Bridging Arabic and Latin Script
Nuria de Castilla, directrice d’Études. UMR 7192 – PROCLAC, École Pratique des Hautes Études-PSL, Paris.
Le projet AljamiadoTech vise à offrir un accès inédit aux manuscrits aljamiados conservés à la Bibliothèque nationale de France : il s’agit de textes en espagnol et en arabe écrits en caractères arabes et latins dans les communautés musulmanes de la Péninsule ibérique (les mudéjares et les morisques) entre les XVe et XVIIe siècles. En combinant normes de translittération, reconnaissance automatique (HTR) et édition numérique, le projet ambitionne de développer une chaîne reproductible permettant de produire des textes interrogeables et alignés sur les images IIIF.
AljamiadoTech livrera un corpus translittéré, des modèles HTR spécialisés ainsi qu’une édition numérique pilote, fournissant de nouveaux outils pour l’étude d’une littérature encore largement méconnue.
En mettant à disposition des données, des modèles et des standards réutilisables, AljamiadoTech constitue une avancée majeure pour l’analyse, la valorisation et la diffusion de la littérature aljamiada. Il jette également les bases d’un cadre méthodologique transposable à d’autres collections européennes similaires.
Pharmavigiscope
Explorer et analyser les espaces numériques de la pharmacovigilance : acteurs, discours et traces archivées du web de la surveillance du risque médicamenteux
Solène Lellinger, maîtresse de conférences. UMR 7219 – SPHERE, CNRS-Université Paris Diderot et Paris 1 Panthéon-Sorbonne.
PharmaVigiScope s’appuie sur les archives web conservées par la Bibliothèque nationale de France afin d’analyser la manière dont la vigilance sanitaire est construite et diffusée publiquement. À partir de sources issues d’acteurs institutionnels, scientifiques et industriels, le projet vise à retracer l’évolution des discours officiels autour de la pharmacovigilance, à cartographier le réseau français de surveillance du médicament via les contenus publiés par les centres régionaux de pharmacovigilance, à étudier le rôle des sociétés savantes dans la diffusion des recommandations professionnelles, et enfin à examiner la communication des industriels sur la surveillance des médicaments et leurs liens éventuels avec les institutions. Il s’inscrit dans le prolongement du projet ANR-25-CE36-3565 « VIGICAMENT - Vigilances et médicaments : mutations des acteurs et des pratiques de surveillance des agents thérapeutiques en France depuis 1970 ».
MAP
Mapping Armenian Paris
Chahan Vidal-Gorène, enseignant-chercheur. Responsable du master Humanités numériques, Ecole nationale des chartes.
Le projet MAP (Mapping Armenian Paris) vise à reconstituer et analyser l’activité commerciale, artisanale et industrielle de la diaspora arménienne à Paris au début du XXe siècle. En exploitant les collections de presse arménienne publiée en France, le projet propose d’identifier et d’analyser les encarts publicitaires pour les catégoriser et les cartographier sur des plans de villes.
Ces publicités, destinées aux lecteurs de la diaspora et particulièrement nombreuses dans les années 1920 et 1930, constituent une source précieuse pour cartographier la présence arménienne dans la capitale. Le projet a pour ambition à la fois de développer des méthodes d’analyse de corpus patrimoniaux encore peu exploités et de proposer une valorisation numérique originale, sous la forme d’une carte interactive de Paris. Les données produites seront ouvertes, ouvrant de nouvelles perspectives de recherche en sciences humaines et sociales, et anthropologie du monde arménien.
De l’espace personnel à l’espace idéologique
Structuration et évolution des discours antiféministes sur Skyblog
- Guillaume Levrier, chercheur associé. CEVIPOF, Sciences Po.
- Tristan Boursier, chercheur associé. CEVIPOF, Sciences Po.
Ce projet de recherche analyse les premières formes de discours antiféministes en ligne à partir des archives de Skyblog (2003–2023), plateforme emblématique des sociabilités numériques francophones des années 2000-2010. Alors que les travaux existants se concentrent principalement sur les manifestations contemporaines de l’antiféminisme numérique, ce projet propose d’en restituer la profondeur historique en étudiant des expressions antérieures, développées dans un environnement sociotechnique distinct des grandes plateformes actuelles.
À partir des archives du Web conservées par la BnF et de l’usage du logiciel PANDORÆ, le projet constitue et explore des sous-corpus diachroniques afin d’identifier les motifs discursifs récurrents, les pratiques culturelles (textes, images, liens hypertextes) et les dynamiques relationnelles par lesquelles l’antiféminisme s’inscrit dans des espaces numériques semi-publics. L’analyse vise à mettre en lumière la manière dont l’antiféminisme peut se structurer autour de formes d’expressions ordinaires, informelles voir intimistes dans l’espace numérique particulier que sont les Skyblogs. Au-delà de l’étude de l’antiféminisme, le projet contribue à la réflexion méthodologique sur l’exploitation des archives du web et à la valorisation d’une collection encore peu étudiée.
BASHtr
Benchmark for Arabic-script Handwritten Text Recognition
Benjamin Kiessling, ingénieur de recherche. ALMAnaCH, Inria.
Le projet BASHtr entend remédier à l’état lacunaire de la reconnaissance automatique de textes (ATR) pour les écritures arabes, situation qui contraste avec l’importance historique majeure de ce patrimoine. Par l’établissement de conventions de transcription à portée générale et la constitution d’un corpus diachronique et non thématique, le projet vise à saisir l’immense variabilité des pratiques scribales. Cette approche a pour dessein de dépasser les limites inhérentes aux jeux de données spécialisés actuels.
Les livrables techniques incluent des conventions de transcription « vivantes » et publiques, conçues pour être réutilisables et évoluer dans le temps. Elles structureront un jeu de données fondamental destiné à l’entraînement de modèles généralisés. Enfin, des modèles de base exploitant les moteurs kraken et party seront mis à la disposition de la communauté.
ManjuGisunTranscript
L’HTR pour les langues à graphies non latines. Transcription et exploitation d’ouvrages en mandchou sur Gallica
Michela Bussotti, directrice d’études. École française d’Extrême Orient.
Ce projet vise à développer un modèle de reconnaissance d’écriture manuscrite (HTR) et un jeu d’entraînement spécifique à la langue mandchou, une langue toungouse parlée par les empereurs de la dernière dynastie impériale des Qing (1644-1911). La collection de documents en mandchou numérisés par la BnF représente l’opportunité de répondre au défi posé par l’absence actuelle de modèle HTR pour cette langue. Mené dans le cadre du projet ANR ChEDil (Dictionnaires sino-européens : manuscrits lexicographiques pour l’étude historique des échanges entre la Chine et l’Europe, fin XVIe-début du XIXe siècle), ce projet trouvera une application directe dans les travaux de ce programme. L’outil de transcription automatique et les données de transcription seront également mis à disposition en libre accès, facilitant ainsi les recherches de tout chercheur travaillant sur un corpus mandchou, une étape importante pour l’étude d’une langue jusqu’ici peu dotée en transcription librement accessible.
PaRAMHTRS
Philology And Resolution of Abbreviations in Manuscripts obtained by HTR at Scale
Thibault Clérice, chercheur. ALMAnaCH, Inria.
Le projet PaRAMHTRS s’inscrit dans la continuité du projet primé HTRomance (2022) et des collaborations fructueuses entre le BnF DataLab et Inria. Ce projet a pour ambition de réaliser, pour la première fois, des expérimentations à grande échelle sur les manuscrits médiévaux de la BnF en langues latine et vernaculaires, couvrant une période allant du VIIe au XVe siècle. L’objectif principal du projet est de démontrer l’efficacité des modèles de reconnaissance d’écriture manuscrite (HTR) génériques, multilingues et graphématiques, développés par l’équipe dans le cadre des projets HTRomance et CATMuS depuis 2022. Dans cette optique, le projet PaRAMHTRS s’articule autour de deux axes principaux : la création de très grands corpus (diachroniques et non thématiques pour le latin, diachroniques et thématiques pour l’ancien français et l’italien), et la résolution automatique des abréviations dans les textes obtenus par HTR.
Étude computationnelle des corpus oraux anciens
Évolution du système phonétique du français au XXe siècle
Juliusz Cecelewski, doctorant. UMR 7018 - Laboratoire de Phonétique et Phonologie.
Toute langue vivante est soumise à un changement incessant et inévitable. Tous ses niveaux évoluent, que ce soit à travers les emprunts visant à rattraper le progrès technologique, ou encore un lexique sans cesse renouvelé par les jeunes locuteurs. La prononciation n’échappe pas à cette dynamique, avec des changements perceptibles parfois même au sein d’une seule génération. L’objectif central du projet est de fournir une documentation expérimentale inédite sur l’évolution du système phonétique du français entre le XXe et le XXIe siècles, à travers une analyse acoustique automatisée des archives de la parole de la BnF. Outre son importance pour la linguistique du français, le projet vise à approfondir la compréhension de la mécanique interne et de la dynamique temporelle des processus de changement phonétique universels affectant différentes langues du monde. En effet, avec une documentation sonore considérablement plus riche que d’autres langues, le français constitue un cas d’étude particulièrement utile pour une investigation phonétique d’une portée théorique plus générale qu’une étude descriptive monolingue classique.
Galligeo
Une application de géoréférencement de cartes et plans de la BnF
Eric Mermet, ingénieur de recherche. TSE-R, consortium Huma-Num Projets Time Machine.
Galligéo est une application web existante, initialement développée comme preuve de concept dans le cadre du consortium Huma-Num Projets Time Machine. Elle permet de géoréférencer des cartes et plans provenant de Gallica. L’un des objectifs principaux du projet est de faire évoluer cette application en intégrant les retours des utilisateurs, recueillis lors d’ateliers organisés au BnF DataLab. Cette démarche vise à favoriser l’émergence d’une communauté d’utilisateurs pour échanger et collaborer, et qui seraient en mesure de constituer un fonds de cartes et plans géoréférencées. Le projet prévoit d’enrichir l’outil avec d’autres algorithmes de géoréférencement. Galligéo sera ainsi un outil précieux pour les chercheurs travaillant sur des données géohistoriques, tout en contribuant à valoriser les collections du département des Cartes et plans de la BnF.
Voir les projets lauréats précédents
Des collaborations avec de multiples projets d’envergure
Dans le cadre de sa stratégie scientifique, la Bibliothèque nationale de France développe et structure des programmes de recherche internes, ainsi que des partenariats nationaux et internationaux autour de l’exploitation, de l’analyse et de la valorisation des données. Le BnF DataLab, de par son positionnement transverse, constitue un point d’entrée incontournable pour la conception, le pilotage et la mise en œuvre de ces projets de recherche en favorisant la co-construction de méthodologies nouvelles adaptées aux spécificités des collections patrimoniales.
Ainsi, le BnF DataLab est impliqué dans plusieurs projets financés par l’Agence nationale de la recherche (projet DECIDON ; projet IDANOPO ; projet MILL-EHNAS…), l’European research Council (projet MODERN ; projet STAGE) ou d’envergure international (projet Impresso), ainsi que dans des consortiums nationaux (PictorIA) ou européens (DARIAH).
Cet ancrage dans un réseau actif de la recherche favorise les collaborations interdisciplinaires entre bibliothécaires, chercheurs, ingénieurs et doctorants. Il offre un cadre scientifique, technique et méthodologique pour concevoir, expérimenter et documenter des projets innovants autour des données patrimoniales.
