Mezanno : libérer les données des archives numérisées – Échos de recherche
Les grands corpus numérisés de sources sérielles – annuaires, dictionnaires ou registres – conservés à la BnF, sont souvent inaccessibles à l’analyse du fait de leur volume. Le projet Mezanno aide à transformer ces corpus en données structurées, facilitant leur exploitation pour la recherche. Alliant intelligence artificielle et pilotage humain, il permet aux chercheurs de gagner un temps précieux sans dépendre de solutions propriétaires.
Les bibliothèques numériques offrent aujourd’hui un accès sans précédent à des millions de pages numérisées. Pourtant, pour les chercheurs en sciences humaines et sociales (SHS), l’accès au document numérisé ne suffit pas toujours. Les annuaires, dictionnaires, registres administratifs ou fichiers d’état civil – appelés sources sérielles en raison de leur structure répétitive – contiennent des gisements de données précieux qui restent souvent inexploités. Transformer ces milliers de pages en tableaux de données utilisables pour une analyse statistique est une tâche si colossale qu’elle ne peut être réalisée manuellement et reste difficile à automatiser, les compétences techniques requises étant souvent rares dans les laboratoires SHS.
Lauréat du plan quadriennal de la recherche BnF (2024-2027), le projet Mezanno est mené en partenariat avec le Laboratoire de recherche de l’EPITA, le Centre de recherches historiques de l’EHESS et le Laboratoire en sciences et technologies de l’information géographique de l’IGN. Il a été pensé pour lever ce verrou, en explorant les ressources de l’IA pour les sciences humaines et sociales, et en proposant une solution logicielle libre capable de produire efficacement des données structurées à partir de ces sources historiques.
L’intelligence artificielle au service de l’histoire
Le projet repose en partie sur l’outil Corpusense, une interface pivot qui permet de piloter un processus complexe, de l’image brute jusqu’au tableau final. Le défi principal n’est pas seulement de transcrire du texte, mais de véritablement le comprendre pour le structurer. Là où les outils classiques de reconnaissance de caractères (OCR) se contentent de transformer la photographie d’une page imprimée en bloc de texte, Corpusense va plus loin en intégrant des modèles de langage (LLM). Ceux-ci peuvent distinguer, dans une ligne de texte parfois mal orthographiée ou abrégée, un nom de famille d’un prénom, d’une profession ou d’une adresse.
L’architecture de Corpusense laisse le chercheur entièrement aux commandes, depuis la définition de son corpus documentaire jusqu’à celle de son « modèle de données » : c’est lui qui choisit les types d’information à extraire pour sa recherche. Il peut ensuite fournir un « prompt » — une instruction textuelle — pour guider le LLM dans son travail d’extraction. Cette démarche permet de s’adapter à la diversité des sources historiques, qu’il s’agisse d’almanachs du commerce ou de registres du Sénat, tout en garantissant que les données produites répondent précisément aux questions scientifiques posées.
Une approche éthique et souveraine de la donnée
Contrairement à de nombreuses plateformes propriétaires qui enferment les utilisateurs dans des écosystèmes opaques, le projet Mezanno mise sur la transparence et l’interopérabilité. L’interface Corpusense s’exécute directement dans le navigateur web de l’utilisateur. Ce choix technique est crucial : les données sont stockées localement, garantissant un contrôle total sur le corpus et évitant un déploiement technique complexe. De plus, le système utilise des standards ouverts comme le protocole IIIF, qui permet de manipuler les fac-similés numériques de haute qualité directement depuis les serveurs des institutions patrimoniales, sans téléchargement préalable.
L’efficacité de cette chaîne de traitement a été évaluée sur un cas concret : le projet de recherche « Les femmes dans les métiers du cinéma français » (BnF et EUR ArTeC). « Il est possible de produire en quelques heures des jeux de données d’une qualité équivalente à plusieurs semaines de saisie manuelle » Les grands corpus numérisés de sources sérielles – annuaires, dictionnaires ou registres – conservés à la BnF, sont souvent inaccessibles à l’analyse du fait de leur volume. Le projet Mezanno aide à transformer ces corpus en données structurées, facilitant leur exploitation pour la recherche. Alliant intelligence artificielle et pilotage humain, il permet aux chercheurs de gagner un temps précieux sans dépendre de solutions propriétaires. Le test a été effectué sur un annuaire général de la cinématographie de 1927. Sur les 4 309 entrées traitées, le système en a correctement reconnu 81 %. Il est encore plus efficace quand il s’agit de distinguer personnes physiques et entreprises (97 %) ou d’identifier le genre des individus (94 %). Si des défis subsistent, comme la détection d’erreurs résiduelles (les fameuses « hallucinations » de l’IA), Corpusense prouve qu’il est possible de produire en quelques heures des jeux de données d’une qualité équivalente à plusieurs semaines de saisie manuelle.
En ouvrant ainsi la voie à une prise en main efficace d’archives jusqu’ici difficiles à exploiter, Mezanno ne remplace pas le travail du chercheur : il le libère des tâches de saisie les plus fastidieuses pour lui permettre de se concentrer sur l’interprétation et l’analyse critique des données.
Jean-Philippe Moreux et Joseph Chazalon
Article paru dans Chroniques n° 105, avril-juillet 2026

