Quelles collections numériques à la BnF ?
Les collections numériques : des contenus hétérogènes d’une extraordinaire richesse
- documents issus de la numérisation des collections et disponibles dans Gallica et Gallica intramuros (images, textes issus de l’OCR, métadonnées, objets)
- archives de l’Internet et autres documents numériques collectés par dépôt légal
- métadonnées des différents catalogues (catalogue général de la BnF, Archives et manuscrits, Catalogue collectif de France)
- collections audiovisuelles et multimédias sur support (jeux vidéos, DVD, CD-Rom…)
- données administratives et techniques telles que les traces d’usage ou « logs » de Gallica
Qu’ils soient issus de numérisations ou nativement numériques, ces documents numériques ouvrent de nouveaux champs de recherche et des perspectives inédites : analyse de masse, fouille de texte, visualisation de données, cartographie, analyse d’images, de réseaux, etc.
Face à cette diversité et à la complexité technique qui parfois conditionne leur exploitation, la BnF mobilise différents niveaux d’expertise pour répondre aux besoins de celles et ceux qui souhaitent constituer des corpus massifs et exploiter ces données à des fins de recherche.
Afin de se familiariser avec les collections et les outils de la BnF, des formations sont régulièrement proposées dans le cadre des projets sur des outils d’extraction et de traitement, soit par des agents de la BnF soit par des chercheurs.
Outils et documentation au service de la recherche
- le portail API et jeux de données, qui permet d’accéder à la documentation sur les API mises en place par la BnF et des jeux de données exploitées dans le cadre de programme de recherche
- l’export au format csv des notices du catalogue général
- le rapport de recherche de Gallica
- le portail data.bnf et le sparkl endpoint
- les parcours guidés dans les archives de l’internet
- le gitlab Huma-Num
- le carnet de recherche Web Corpora qui présente des outils
- le carnet de recherche de la BnF
- le portail HAL du BnF DataLab
- la rubrique réutiliser les données de la BnF

