L’innovation au service des collections de presse

Améliorer l’accès aux collections de presse et faciliter leur recherche tant au sein de Gallica que de Retronews est au cœur des préoccupations de la BnF. Pour ce faire, la bibliothèque participe à des projets européens de recherche et d’innovation. Le dernier projet en date en la matière est intitulé « NewsEye ».

NewsEye, A Digital Investigator for Historical Newspapers

 

Avec pour objectif de faciliter l’accès à la presse ancienne numérisée pour la période 1850-1950 et d’accroître la capacité des utilisateurs à accéder, analyser et exploiter ces contenus, le projet européen NewsEye, A Digital Investigator for Historical Newspapers, a rassemblé des bibliothèques nationales, des groupes de recherche en sciences humaines et sociales, et des groupes de recherche en informatique.

Pour ce faire, il a développé une boîte à outil d’analyse des journaux numérisés à très grande échelle, quelle que soit leur langue. Ces travaux sur l’amélioration de la qualité des articles, l’enrichissement sémantique (au titre des entités nommées pour les noms de personnes, lieux, pays, etc.), l’apposition de l’opinion du rédacteur (positive ou négative), et la déduction par analyse des données en fonction des recherches des utilisateurs, ont permis d’aboutir à la création d’un assistant personnel de recherche multilingue visant à cibler en particulier les nouveaux besoins des chercheurs en humanités numériques. En ce qui concerne la BnF, ces outils sont disponibles via son Datalab.
NewsEye - Poster Les Futures Fantastiques - 2021 - BnF

 

 

Le démonstrateur NewsEye présente les résultats du projet. Ce site, dont l’accès est gratuit, permet à l’utilisateur d’explorer des collections de presse dans différentes langues. Publiés entre 1850 et 1950, ces journaux ont été mis à disposition par les trois bibliothèques nationales basées à Vienne, Paris et Helsinki. À l’issue des recherches, l’on peut constituer des corpus personnalisés correspondant à des centres d’intérêt. Ceux-ci peuvent être exportés sous divers formats ou analysés au sein même du démonstrateur.

 

En plus de son volet technologique, des études de cas ont été réalisées pour tester les outils existants, ainsi que ceux développés par la projet. Leurs thématiques portaient sur les migrations, le genre, le nationalisme, et les médias et le journalisme. Dans ce cadre, une série d’articles décryptant l’actualité au regard de la presse ancienne a été publiée sur le blog de Gallica. Les femmes en pantalon, l’histoire médiatique du masque de protection ou encore le couvre-feu sont autant de thèmes abordés.

Découvrir ces articles

En mars 2021, une journée d’étude organisée dans le cadre de ce projet s’est également interroger sur la recherche dans les corpus de presse ancienne numérisés. Faisant intervenir des spécialistes en humanités numériques, des chercheurs en informatique et des professionnels des bibliothèques, plusieurs outils ont été présentés par le biais d’exemples concrets de recherche ayant trait à la thématique des femmes.

 

Journée « À la recherche des femmes dans la presse ancienne numérisée (1850-1950) »

Table ronde : regards croisés sur les défis et les enjeux de la mise à disposition de larges corpus numérisés
Outils numériques et revendications féministes
Presse et féminisme à la BnF
Un journalisme au féminin : enjeux historiques du numérique
Présentation du projet NewsEye

Réalisé entre mai 2018 et février 2022, le projet rassemble le laboratoire informatique image et interaction (L3i) de La Rochelle Université, coordinateur du projet, les bibliothèques nationales d’Autriche, de Finlande et de France ; et les universités d’Helsinki, d’Innsbruck, de Paul Valéry Montpellier 3, de Rostock et de Vienne.

NewsEye s’inscrit dans le sillage de projets antérieurs en termes de résultats obtenus – en particulier Europeana Newspapers – en matière d’OCR, d’analyse de la structure des journaux (extraction des thématiques, identification des articles) et de traitement multilingue des contenus (reconnaissance des entités nommées, analyse d’opinion et de sentiment, fouille de texte et de données).

La BnF a participé à ce projet afin de renforcer son expertise en matière d’enrichissement des documents numériques, de valoriser les collections de presse numérisées auprès de ses publics, et de développer des outils de fouille de texte et de données sur une collection au fort taux de consultation dans Gallica et de Retronews.

Europeana Newspapers

Ce projet avait pour objectif de faciliter l’accès à une collection de presse quotidienne européenne et multilingue de près de 18 millions de pages de journaux consultables via Europeana, grâce à une optimisation de la reconnaissance automatique des articles de presse et à un enrichissement sémantique des métadonnées relatives à ces contenus.

Projet précurseur concernant la numérisation des journaux et leur consultation en ligne, il a rassemblé quelques 17 partenaires dont 9 bibliothèques nationales (Autriche, Estonie, Finlande, France, Lettonie, Pays-Bas, Pologne, Royaume-Uni et Turquie).

La BnF a produit un total de 2,4 millions de pages de journaux numérisés dont 1,4 millions océrisées et 1 million de pages structurées au niveau de l’article (OLR/Optical Layout Recognition) intégrées dans Retronews et Gallica, améliorant ainsi la recherche en ligne de ces fonds.
Entre 2012 et 2015, ce projet a fortement  contribué à l’évolution des traitements utilisés pour l’OCR et en particulier à l’amélioration du contrôle OCR pour ses marchés de numérisation de masse. Le développement de la reconnaissance automatique des entités nommées en français a été effectué avec le concours du Laboratoire d’Informatique de Paris 6 (LIP6) de la Sorbonne. Ce développement était alors une première.

 

 

Les projets Europeana Newspapers et NewsEye ont bénéficiés de financements européens. Europeana Newspapers par le Competitiveness and Innovation Programme entre 2015 et 2017, et NewsEye par le programme cadre de recherche et innovation Horizon 2020 de l’Union européenne (accord de subvention n°770299).