Les projets de recherche – BnF DataLab
2026-2027
WO(RK) IN PROGRESS.
Pour un catalogue numérique des dessins de Wolfgang Hambuger dit Wo (1917-1940)
Nathalie Raoux, chercheuse. UMR 8131 - Centre Georg Simmel, EHESS et CNRS.
Le projet vise à reconstituer, analyser et mettre en lumière l’œuvre du dessinateur et caricaturiste juif Wolfgang Hamburger, dit Wo (1917-1940), tombé dans l’oubli et dont la production n’a jamais été réunie ni étudiée. Construit à partir d’archives de première main, il développe un catalogue numérique raisonné, appelé à prendre la forme d’une collection enrichie, ainsi qu’une chronologie critique des dessins connus de l’artiste.
L’ensemble de ses dessins de presse constitue une traversée en coupe des années 1930 : nazisme, guerre d’Espagne, guerre sino-japonaise, accords de Munich, condition des exilés… Aussi, par-delà le seul sauvetage de la vie et de l’œuvre de Wo, la mise à disposition de ces dessins offre-t-elle une ressource documentaire de premier ordre pour les chercheurs, les historien·ne·s et les enseignants du secondaire, et ouvre un espace renouvelé pour l’histoire culturelle, visuelle et politique du XXᵉ siècle à travers le dessin de presse.
Modélisation d’un corpus littéraire à des fins de remédiation des archives du web littéraire
- Servanne Monjour, maîtresse de conférences. UMR 8599 – CELLF, Sorbonne Université et CNRS.
- Nicolas Sauret, maître de conférences. EA 349 - Paragraphe, Université Paris 8.
Ce projet de recherche et développement vise à concevoir une solution innovante de modélisation et de remédiation des archives du Web littéraire, à partir d’un dispositif informatique de forge logicielle (GIT), dans une perspective de sobriété numérique et de minimal computing.
Nous développerons ce projet autour des archives du collectif littéraire Général Instin (GI). Né dans les années 1990, le projet GI cristallise les principaux enjeux conceptuels des corpus éditorialisés : dissémination, autorité multiple, fragmentation, écritures en mouvement. Le GI incarne ainsi les mutations de la création littéraire numérique accompagnant l’histoire du Web.
Là où les Archives de l’Internet ont édité de nombreux parcours guidés fondés sur approche par « auteur » et par « site », nous proposons d’établir un modèle alternatif, fondé sur une approche par projet éditorialisé. Puisque cette littérature est caractérisée par sa dimension fortement performative, nous proposons d’envisager sa remédiation en nous inspirant des « parcours signés » imaginés par Bernard Stiegler. Pour effectuer ce travail de modélisation et de remédiation, nous mobiliserons un dispositif de forge logicielle (GIT/Gitlab), en tant que dispositif éditorial.
AljamiadoTech
Bridging Arabic and Latin Script
Nuria de Castilla, directrice d’Études. UMR 7192 – PROCLAC, École Pratique des Hautes Études-PSL, Paris.
Le projet AljamiadoTech vise à offrir un accès inédit aux manuscrits aljamiados conservés à la Bibliothèque nationale de France : il s’agit de textes en espagnol et en arabe écrits en caractères arabes et latins dans les communautés musulmanes de la Péninsule ibérique (les mudéjares et les morisques) entre les XVe et XVIIe siècles. En combinant normes de translittération, reconnaissance automatique (HTR) et édition numérique, le projet ambitionne de développer une chaîne reproductible permettant de produire des textes interrogeables et alignés sur les images IIIF.
AljamiadoTech livrera un corpus translittéré, des modèles HTR spécialisés ainsi qu’une édition numérique pilote, fournissant de nouveaux outils pour l’étude d’une littérature encore largement méconnue.
En mettant à disposition des données, des modèles et des standards réutilisables, AljamiadoTech constitue une avancée majeure pour l’analyse, la valorisation et la diffusion de la littérature aljamiada. Il jette également les bases d’un cadre méthodologique transposable à d’autres collections européennes similaires.
Pharmavigiscope
Explorer et analyser les espaces numériques de la pharmacovigilance : acteurs, discours et traces archivées du web de la surveillance du risque médicamenteux
Solène Lellinger, maîtresse de conférences. UMR 7219 – SPHERE, CNRS-Université Paris Diderot et Paris 1 Panthéon-Sorbonne.
PharmaVigiScope s’appuie sur les archives web conservées par la Bibliothèque nationale de France afin d’analyser la manière dont la vigilance sanitaire est construite et diffusée publiquement. À partir de sources issues d’acteurs institutionnels, scientifiques et industriels, le projet vise à retracer l’évolution des discours officiels autour de la pharmacovigilance, à cartographier le réseau français de surveillance du médicament via les contenus publiés par les centres régionaux de pharmacovigilance, à étudier le rôle des sociétés savantes dans la diffusion des recommandations professionnelles, et enfin à examiner la communication des industriels sur la surveillance des médicaments et leurs liens éventuels avec les institutions. Il s’inscrit dans le prolongement du projet ANR-25-CE36-3565 « VIGICAMENT - Vigilances et médicaments : mutations des acteurs et des pratiques de surveillance des agents thérapeutiques en France depuis 1970 ».
MAP
Mapping Armenian Paris
Chahan Vidal-Gorène, enseignant-chercheur. Responsable du master Humanités numériques, Ecole nationale des chartes.
Le projet MAP (Mapping Armenian Paris) vise à reconstituer et analyser l’activité commerciale, artisanale et industrielle de la diaspora arménienne à Paris au début du XXe siècle. En exploitant les collections de presse arménienne publiée en France, le projet propose d’identifier et d’analyser les encarts publicitaires pour les catégoriser et les cartographier sur des plans de villes.
Ces publicités, destinées aux lecteurs de la diaspora et particulièrement nombreuses dans les années 1920 et 1930, constituent une source précieuse pour cartographier la présence arménienne dans la capitale. Le projet a pour ambition à la fois de développer des méthodes d’analyse de corpus patrimoniaux encore peu exploités et de proposer une valorisation numérique originale, sous la forme d’une carte interactive de Paris. Les données produites seront ouvertes, ouvrant de nouvelles perspectives de recherche en sciences humaines et sociales, et anthropologie du monde arménien.
De l’espace personnel à l’espace idéologique
Structuration et évolution des discours antiféministes sur Skyblog
- Guillaume Levrier, chercheur associé. CEVIPOF, Sciences Po.
- Tristan Boursier, chercheur associé. CEVIPOF, Sciences Po.
Ce projet de recherche analyse les premières formes de discours antiféministes en ligne à partir des archives de Skyblog (2003–2023), plateforme emblématique des sociabilités numériques francophones des années 2000-2010. Alors que les travaux existants se concentrent principalement sur les manifestations contemporaines de l’antiféminisme numérique, ce projet propose d’en restituer la profondeur historique en étudiant des expressions antérieures, développées dans un environnement sociotechnique distinct des grandes plateformes actuelles.
À partir des archives du Web conservées par la BnF et de l’usage du logiciel PANDORÆ, le projet constitue et explore des sous-corpus diachroniques afin d’identifier les motifs discursifs récurrents, les pratiques culturelles (textes, images, liens hypertextes) et les dynamiques relationnelles par lesquelles l’antiféminisme s’inscrit dans des espaces numériques semi-publics. L’analyse vise à mettre en lumière la manière dont l’antiféminisme peut se structurer autour de formes d’expressions ordinaires, informelles voir intimistes dans l’espace numérique particulier que sont les Skyblogs. Au-delà de l’étude de l’antiféminisme, le projet contribue à la réflexion méthodologique sur l’exploitation des archives du web et à la valorisation d’une collection encore peu étudiée.
BASHtr
Benchmark for Arabic-script Handwritten Text Recognition
Benjamin Kiessling, ingénieur de recherche. ALMAnaCH, Inria.
Le projet BASHtr entend remédier à l’état lacunaire de la reconnaissance automatique de textes (ATR) pour les écritures arabes, situation qui contraste avec l’importance historique majeure de ce patrimoine. Par l’établissement de conventions de transcription à portée générale et la constitution d’un corpus diachronique et non thématique, le projet vise à saisir l’immense variabilité des pratiques scribales. Cette approche a pour dessein de dépasser les limites inhérentes aux jeux de données spécialisés actuels.
Les livrables techniques incluent des conventions de transcription « vivantes » et publiques, conçues pour être réutilisables et évoluer dans le temps. Elles structureront un jeu de données fondamental destiné à l’entraînement de modèles généralisés. Enfin, des modèles de base exploitant les moteurs kraken et party seront mis à la disposition de la communauté.
2025-2026
ManjuGisunTranscript
L’HTR pour les langues à graphies non latines. Transcription et exploitation d’ouvrages en mandchou sur Gallica
Michela Bussotti, directrice d’études. École française d’Extrême Orient.
Ce projet vise à développer un modèle de reconnaissance d’écriture manuscrite (HTR) et un jeu d’entraînement spécifique à la langue mandchou, une langue toungouse parlée par les empereurs de la dernière dynastie impériale des Qing (1644-1911). La collection de documents en mandchou numérisés par la BnF représente l’opportunité de répondre au défi posé par l’absence actuelle de modèle HTR pour cette langue. Mené dans le cadre du projet ANR ChEDil (Dictionnaires sino-européens : manuscrits lexicographiques pour l’étude historique des échanges entre la Chine et l’Europe, fin XVIe-début du XIXe siècle), ce projet trouvera une application directe dans les travaux de ce programme. L’outil de transcription automatique et les données de transcription seront également mis à disposition en libre accès, facilitant ainsi les recherches de tout chercheur travaillant sur un corpus mandchou, une étape importante pour l’étude d’une langue jusqu’ici peu dotée en transcription librement accessible.
PaRAMHTRS
Philology And Resolution of Abbreviations in Manuscripts obtained by HTR at Scale
Thibault Clérice, chercheur. ALMAnaCH, Inria.
Le projet PaRAMHTRS s’inscrit dans la continuité du projet primé HTRomance (2022) et des collaborations fructueuses entre le BnF DataLab et Inria. Ce projet a pour ambition de réaliser, pour la première fois, des expérimentations à grande échelle sur les manuscrits médiévaux de la BnF en langues latine et vernaculaires, couvrant une période allant du VIIe au XVe siècle. L’objectif principal du projet est de démontrer l’efficacité des modèles de reconnaissance d’écriture manuscrite (HTR) génériques, multilingues et graphématiques, développés par l’équipe dans le cadre des projets HTRomance et CATMuS depuis 2022. Dans cette optique, le projet PaRAMHTRS s’articule autour de deux axes principaux : la création de très grands corpus (diachroniques et non thématiques pour le latin, diachroniques et thématiques pour l’ancien français et l’italien), et la résolution automatique des abréviations dans les textes obtenus par HTR.
Étude computationnelle des corpus oraux anciens
Évolution du système phonétique du français au XXe siècle
Juliusz Cecelewski, doctorant. UMR 7018 - Laboratoire de Phonétique et Phonologie.
Toute langue vivante est soumise à un changement incessant et inévitable. Tous ses niveaux évoluent, que ce soit à travers les emprunts visant à rattraper le progrès technologique, ou encore un lexique sans cesse renouvelé par les jeunes locuteurs. La prononciation n’échappe pas à cette dynamique, avec des changements perceptibles parfois même au sein d’une seule génération. L’objectif central du projet est de fournir une documentation expérimentale inédite sur l’évolution du système phonétique du français entre le XXe et le XXIe siècles, à travers une analyse acoustique automatisée des archives de la parole de la BnF. Outre son importance pour la linguistique du français, le projet vise à approfondir la compréhension de la mécanique interne et de la dynamique temporelle des processus de changement phonétique universels affectant différentes langues du monde. En effet, avec une documentation sonore considérablement plus riche que d’autres langues, le français constitue un cas d’étude particulièrement utile pour une investigation phonétique d’une portée théorique plus générale qu’une étude descriptive monolingue classique.
Galligeo
Une application de géoréférencement de cartes et plans de la BnF
Eric Mermet, ingénieur de recherche. TSE-R, consortium Huma-Num Projets Time Machine.
Galligéo est une application web existante, initialement développée comme preuve de concept dans le cadre du consortium Huma-Num Projets Time Machine. Elle permet de géoréférencer des cartes et plans provenant de Gallica. L’un des objectifs principaux du projet est de faire évoluer cette application en intégrant les retours des utilisateurs, recueillis lors d’ateliers organisés au BnF DataLab. Cette démarche vise à favoriser l’émergence d’une communauté d’utilisateurs pour échanger et collaborer, et qui seraient en mesure de constituer un fonds de cartes et plans géoréférencées. Le projet prévoit d’enrichir l’outil avec d’autres algorithmes de géoréférencement. Galligéo sera ainsi un outil précieux pour les chercheurs travaillant sur des données géohistoriques, tout en contribuant à valoriser les collections du département des Cartes et plans de la BnF.
Années précédentes
EUROWEB
Les élections européennes sur le web : vers un espace politique transnational ?
- Morgane Le Boulay, ingénieure de recherche. UMR 7363 – Sociétés, Acteurs, Gouvernement en Europe (SAGE), CNRS et université de Strasbourg ;
- Céline Monicolle, ingénieure d’étude. UMR 7363 – Sociétés, Acteurs, Gouvernement en Europe (SAGE), CNRS et université de Strasbourg.
Le projet EUROWEB entend utiliser les archives du web pour réexaminer la question de l’émergence d’un espace politique transnational lors des élections européennes. En quoi l’étude de pages web (sites Internet et comptes Twitter essentiellement) de différents types d’acteurs (partis politiques, candidats, Parlement européen, presse…) peut-elle améliorer les connaissances sur l’européanisation de l’espace politique opérée (ou non) lors de ces élections ? L’attention sera portée sur la présence de symboles ou de mots clés liés à l’UE, sur la mise en avant de l’appartenance des partis nationaux et des candidats à des partis et groupes politiques européens, mais aussi sur les contenus politiques. On pourra en effet comparer les enjeux politiques majeurs dans le domaine du web français lors de ces élections avec les débats au sein du Parlement européen ainsi que, dans le cadre d’un projet plus large, avec les archives du web allemandes. Une perspective longitudinale mettra en lumière les évolutions dans le temps.
Millenium
Le passage informatique à l’an 2000 : expression d’imaginaires et savoirs techniques dans une société pré-numérique
Céline Ferjoux, chercheuse associée. Centre d’Analyse et de Recherche Interdisciplinaire sur les Médias (CARISM), Panthéon-Assas Université.
Ce projet exploratoire se donne pour objectif de construire un terrain de recherche à partir d’un corpus multimodal, mobilisant des ressources de la BnF et principalement de la collection du dépôt légal de l’Internet français en les associant à celles de l’INA et à des corpus issus du web vivant afin d’établir une cartographie de la controverse socio-technique autour du passage informatique à l’an 2000, en France. En s’appuyant sur une multiplicité de sources, le questionnement portera sur plusieurs dimensions nécessaires pour délimiter les contours de cet événement, mais aussi analyser les imaginaires et les croyances associées au nouveau millénaire que cet événement traduit. L’étude du corpus et de la valeur médiatique et sémantique des discours permettra de situer ce moment dans la perspective d’une étude de la société pré-numérique et de la place des savoirs informatiques dans les imaginaires de la fin du XXe siècle.
READ_Chinese
Recognizing Automatically Dunhuang Chinese Manuscripts
- Marc Bui, professeur. UMR 8546 – Archéologie & Philologie d’Orient et d’Occident (AOrOc), CNRS et Université PSL ;
- Frédéric Constant, professeur. UPR1198 – Équipe de Recherche sur les Mutations de l’Europe et de ses sociétés (ERMES), Université Côte d’Azur ;
- Costantino Moretti, maître de conférences. UMR8155 – Centre de recherche sur les civilisations de l’Asie orientale (CRCAO), École française d’Extrême-Orient ;
- Garance Chao Zhang, ingénieure de recherche. UMR8155 – Centre de recherche sur les civilisations de l’Asie orientale (CRCAO), École pratique des Hautes Études ;
- Colin Brisson, collaborateur scientifique.
Le projet READ_Chinese entend réaliser une transcription de l’ensemble des manuscrits du fonds Pelliot-Chinois de la Bibliothèque Nationale. Copiés entre le Ve et le XIe siècle, ces documents sont d’une valeur inestimable pour l’histoire de la Chine médiévale et se distinguent par une diversité exceptionnelle de styles calligraphiques et de caractéristiques codicologiques. Au-delà de l’intérêt scientifique des transcriptions, le projet entend tirer profit de la diversité du fonds afin de développer une bibliothèque logicielle généraliste pour la transcription automatique des documents historiques chinois. Celle-ci sera mise à disposition de la communauté scientifique sous forme de paquet logiciel, permettant ainsi une amélioration significative de la qualité et de l’accessibilité des transcriptions des documents historiques chinois, ouvrant de nouvelles perspectives dans la recherche en études chinoises.
Une histoire culturelle du « sentiment maternel » depuis 1955
Anne-Laure Thomas Derepas, ingénieure de recherche. UAR 3611 – Institut des Systèmes Complexes de Paris Île-de-France (ISC-PIF), CNRS.
Depuis 2015 au moins, l’espace médiatique est occupé par la question des affects parentaux, souvent maternels et souvent négatifs (burnout, regret maternel, refus d’enfant…). L’injonction à devenir mère y semble constituée en débat de société. Or, si l’existence de cette injonction socio-culturelle est documentée, sa teneur exacte est peu étudiée et son inscription socio-historique peu précisée. Le bouleversement des rôles sociaux de genre, de la vie familiale et des pratiques reproductives de la deuxième partie du XXe siècle se sont pourtant probablement accompagnés d’un changement du référentiel culturel encadrant l’entrée en maternité pour les femmes. Comment les représentations socio-culturelles construisant la maternité comme une évidence biographique voire biologique pour les femmes se sont-elles transformées ?
Pour répondre à cette question, ce projet propose d’examiner plusieurs espaces de discours choisis pour leur diversité, qu’ils soient experts profanes, explicitement normatifs ou à visée narrative : un corpus de 130 manuels de grossesse postérieurs à 1955; plusieurs milliers d’articles scientifiques et médicaux de la deuxième moitié du XXe ; un ensemble de fictions ou autobiographies sur la maternité sont ainsi examinés. Afin de construire une histoire socio-culturelle du sentiment maternel, ces différents corpus seront étudiés sémantiquement et dans leur temporalité à l’aide de l’outil GarganText développé par l’Institut des Systèmes Complexes de Paris-Île-de-France.
Archives web et migrations numériques
Quentin Lobbé, post-doctorant. UMR 8577 – Centre d’analyse et de mathématiques sociales (CAMS), CNRS et EHESS.
Ce projet a pour but de plonger dans la mémoire du web, d’explorer les corpus d’archives web conservées à la BNF. En s’inspirant de la science des systèmes complexes, il étudiera l’émergence et les dynamiques temporelles de structures socio-culturelles ayant existées sur la toile il y a 10 ou 20 ans. Cette résidence se concentrera tout particulièrement sur les « migrations numériques » ; c’est à dire, le déplacement coordonné ou non de tout ou partie d’une communauté d’internautes d’un territoire du Web vers un autre. Grâce à l’aide du BnF DataLab, le projet tentera de développer des méthodes d’analyses qualitatives & quantitatives de ces migrations numériques.
Virtuel-Mucem
Histoire, interprétation et remédiation des sites web thématiques du MNATP et du Mucem (2005-2013)
Charles Riondet, chargé de projets numériques et open data. Musée des civilisations de l’Europe et de la Méditerranée (Mucem).
Le Musée national des arts et traditions populaires (MNATP) puis le Mucem ont produit ou participé à la réalisation de plusieurs sites internet thématiques entre 2005 et 2013. Véritables projets éditoriaux, ils ont été pendant une décennie un moyen privilégié de valorisation des collections et de la recherche du musée, notamment ses enquêtes-collectes, en particulier pendant la période de transition entre les deux musées. Le projet Virtuel-Mucem 2005/2013 vise à retracer l’histoire de ces sites thématiques et d’en permettre une remédiation à partir des archives du web de la BnF tout en s’interrogeant sur le regard que nous portons aujourd’hui sur ces formes historiques de médiation des collections, sur leur réactivation et leur patrimonialisation, comme objets et traces de la culture numérique des années 2000.
4 projets ont été sélectionnés par un jury composé de membres de la BnF, d’Huma-Num et du CNRS, et ont été accueillis dans le BnF DataLab pour l’année 2023.
GénéAlgoPsy
Généalogie culturelle de la douleur psychique : expressions, usages, représentations
Astrid Chevance, psychiatre, cheffe de clinique assistante de l’université de Paris. UMR 1153 / CRESS - centre de recherche en Epidémiologie et Statistique, équipe METHODS
GénéAlgoPsy s’inscrit dans un vaste programme de recherche de 4 ans autour de la notion de douleur psychique. Façonné par les aliénistes au 19e siècle, qui la différencient alors de la douleur physique, la notion de douleur psychique disparaît progressivement de la littérature savante, et ne transparaît plus que dans les thèmes littéraires investis par la sensibilité romantique. Inscrit dans le champ des humanités médicales, GénéAlgoPsy vise à repérer et à caractériser l’émergence de la notion de « douleur psychique » en s’appuyant sur un corpus composé à la fois de textes littéraires et «savants» (provenant par exemple du domaine médical ou philosophique) et construire une histoire culturelle du concept. Cette recherche s’inscrit dans un programme de recherche interdisciplinaire qui, mêlant sciences humaines et sociales, humanités numériques et épidémiologie clinique, va permettre, à terme, de créer un outil de mesure de la douleur psychique afin d’améliorer le diagnostic, le soin et le suivi des patients.
ADAPTMED
Adaptation automatique des textes médicaux
Amalia Todirascu, professeure des universités. UR 1339 / LiLPa - Linguistique, Langue, Parole, Université de Strasbourg
La pandémie Covid-19 a mené à l’apparition de nouveaux termes et à la multiplication de textes de vulgarisation scientifique pour le grand public (articles de presse, blogs, sites institutionnels…). Cette vulgarisation du discours scientifique, rendu intelligible pour le grand public tout en limitant la perte d’information, se construit grâce à une adaptation du discours et à l’utilisation de synonymes, des reformulations et des transformations syntaxiques assez facilement identifiables. S’appuyant sur la collecte Covid-19 des archives de l’internet de la BnF, le projet ADAPTMED veut se saisir de ce riche corpus pour développer un système d’adaptation automatique de textes médicaux en textes de vulgarisation scientifique. Le corpus COVID-19 des archives de l’internet permettra d’enrichir une base de données de termes médicaux et de leurs équivalents simplifiés (synonymes, paraphrase ou définition), qui servira de base à la création d’un système d’adaptation de textes, appliqué aux articles scientifiques sur le Covid 19.
HTRomance
- Thibault Clérice, post-doctorant. Centre Jean-Mabillon, Ecole nationale des chartes et INRIA
- Alix Chagué, doctorante. ALMAnaCH, INRIA et Université de Montréal
L’objectif du projet HTRomance est d’évaluer et d’améliorer les techniques de reconnaissance d’écritures manuscrites (HTR) des manuscrits littéraires en latin et langues romanes, du XIème au XIXème siècle. Pour cela, le projet prévoit la production de données d’entraînement et de modèles de transcription résistants aux changements de mains, voire de langues. Il entend également produire des modèles de langues applicables à des documents en langues anciennes, ou à des états de langue anciens. Le choix du corpus de textes est guidé par la nécessité de diversifier les écritures cursives (mains) et les thèmes des documents. Ce projet vise également à produire un processus d’évaluation sur la correction des données HTR, en mesurant la lisibilité des documents et le temps de reprise manuelle.
Valorisation numérique du fonds Dulaurier
- Bernard Coulie, professeur. Institut orientaliste de Louvain, UCLouvain
- Chahan Vidal-Gorène, collaborateur scientifique, Calfa
- Bastien Kindt, collaborateur scientifique. Institut orientaliste de Louvain, UCLouvain - projet GREgORI
Le projet poursuit plusieurs objectifs. Il s’agit tout d’abord de rendre accessible aux chercheurs la transcription des manuscrits du fonds Dulaurier de la BnF en utilisant les techniques de reconnaissance automatique d’écriture manuscrites (HTR). Ce fonds, constitué de manuscrits arméniens copiés ou fait copiés par Edouard Dulaurier (1807-1881), représente également l’opportunité de développer les technologies de traitement automatique des documents arméniens, encore à ses balbutiements. Par conséquent, ce projet se propose aussi d’être une preuve de concept d’un modus operandi pour le traitement de langues peu dotées, notamment celles à graphie non latine, et qui offrent pour le moment peu de données d’apprentissage.
AUREJ
Accès Unifié aux REssources de la Jouabilité
Fabrice Pirolli, maître de conférences HDR en Sciences de l’Information et de la Communication - Le Mans Université / IUT de Laval
Le projet AUREJ (Accès Unifié aux REssources de la Jouabilité) se penche sur de nouvelles modalités d’exploitation des collections qui environnent le jeu vidéo : sources documentaires de type presse, vidéos de jeu, bande son… autant de ressources, documentaires et matérielles conservées par la BnF, mais dont la consultation sur un seul et même environnement soulève des contraintes techniques encore difficiles à surmonter. Le projet vise notamment une analyse transversale du corpus hétérogène ainsi constitué (jeux, supports, matériels, presse spécialisé, cédéroms, enregistrements vidéo, etc.) afin de dégager les fondements techniques et pratiques qui permettraient de proposer aux usagers un accès unifié aux ressources, en particulier pour les publics de chercheurs.
GallicaEnv
- Guillaume Sapriel, maître de conférences - Université de Paris-Saclay/Versailles Saint-Quentin-en-Yvelines (UVSQ)
- Grégory Quenet, professeur des universités (1re classe) en histoire de l’environnement - Université de Paris-Saclay/Versailles Saint-Quentin-en-Yvelines (UVSQ)
La notion d’environnement, dans son acception actuelle, est relativement récente. La notion même est absente des catalogues, rendant difficile la constitution de corpus autour de cette notion. À travers les collections de Gallica, le projet GallicaEnv a pour objectif d’étudier l’émergence et la viralité de cette notion, à l’aide de techniques d’intelligence artificielle (apprentissage profond). L’enjeu est donc ici double, puisqu’il s’agit d’expérimenter la possibilité de construire un corpus thématique à l’aide d’une intelligence artificielle, mais aussi les points d’entrée dans les collections en enrichissant les métadonnées existantes et en développant une méthodologie de recherche sémantique. Les résultats de ces recherches (métadonnées, corpus, outils, articles) seront ensuite mis à disposition du public et des chercheurs.
BUZZ-F
Valérie Schafer, professeure d’histoire européenne contemporaine - Université du Luxembourg, C²DH (Luxembourg Centre for Contemporary and Digital History)
Le projet BUZZ-F se propose d’étudier l’histoire des phénomènes de viralité et de circulation des contenus en ligne depuis les années 1990 à nos jours. Se fondant notamment sur la collecte COVID-19 menée par les équipes du dépôt légal du web et à travers l’analyse d’exemples précis (mèmes, gifs, vidéos de danse ou d’applaudissement…), le projet se donne pour objectif de reconstituer ces phénomènes relevant d’une culture numérique largement internationalisée à partir des traces nécessairement partielles laissées dans les archives web. La méthodologie retenue articulera analyse des plateformes de buzz, cartographie des circulations et repérage des « fantômes », c’est-à-dire de contenus absents des collections mais dont la diffusion massive a pu générer de multiples traces plus indirectes dans l’archive. La méthodologie et les résultats de recherche produits seront partagés dans le respect du droit d’auteur et viendront alimenter les échanges conduits dans le cadre des projets WARCnet, HIVI et Mars IMPERIUM.
AGODA
Analyse sémantique et Graphes relationnels pour l’Ouverture et l’étude des Débats à l’Assemblée nationale
- Pierre Vernus, maître de conférences en histoire contemporaine - Université Lumière Lyon 2
- Marie Puren, enseignante-chercheuse en histoire et humanités numériques - Epitech Paris, laboratoire « Méthodes numériques pour les Sciences de l’Humain et de la Société »
Le projet AGODA propose une plateforme de consultation et d’exploration des débats parlementaires de la Chambre des députés, sur la période 1881-1940. Cette source, très riche en informations sur l’histoire politique et sociale, présente, par sa volumétrie et la formalisation des publications, un abord difficile pour la recherche et l’appréhension globale.
L’objectif du projet AGODA est de proposer par le biais d’une plateforme de consultation, non seulement un accès enrichi aux données numériques (correction, enrichissement, interopérabilité), mais aussi de mettre à disposition des outils pour l’exploitation de ces données (fouille, analyse, indexation).
Gallic(orpor)a
extraction, annotation et diffusion de l’information textuelle et visuelle en diachronie longue
- Benoît Sagot, directeur de recherche - INRIA
- Simon Gabay, maître-assistant (humanités numériques) - Université de Genève
- Jean-Baptiste Camps, maître de conférences - École nationale des chartes
Le projet Gallic(orpor)a propose de mettre en place une chaîne de traitement des documents anciens de Gallica, des premiers manuscrits aux imprimés révolutionnaires, afin de permettre aux chercheurs d’accéder non seulement aux extractions de textes (OCR, HTR) et aux images, mais également à des données enrichies. La chaîne de traitement mise en place proposera une annotation fine des documents, un enrichissement des données ainsi qu’une transcription en XML-TEI, autorisant ainsi des usages tels que la constitution de cartes, de graphiques, l’extraction d’entités nommées…
