L’offre de services de la BnF pour les acteurs de l’intelligence artificielle (IA)

Les services Data IA pour les professionnels (sociétés du secteur de l’IA et producteurs de contenus notamment)

Conformément à sa mission, la BnF souhaite contribuer, par son action, à la découvrabilité et à la réutilisation des contenus de la connaissance en langue française au niveau international.

La BnF propose ainsi une gamme de services d’accès aux documents et données numériques libres de droit (catalogues, bibliothèque numérique Gallica, banque d’images…), d’extraction (API, livraison de jeux de données sur-mesure…), de traitement et de préservation (numérisation, océrisation, archivage numérique…). Ces services aux professionnels de l’IA et aux producteurs de contenus (éditeurs et auteurs notamment), permettent d’entraîner et de spécialiser (fine tuning) des modèles d’IA générative ou d’appliquer des traitements d’IA (fouilles de données par exemple) sur les données libres de droit de la BnF mais également de faire numériser des documents conservés dans ses collections et/ou de constituer des jeux de données numériques pour les fournir à des utilisateurs. 

En tant que tiers de confiance et grâce à la richesse de ses collections, la BnF offre à travers ces services des garanties et des avantages uniques.

Pour les utilisateurs de données, la possibilité :

  • d’accéder facilement, notamment grâce à une palette d’API,  à un vaste réservoir de données multimodales (texte, image, son et vidéo), y compris pour les acteurs de l’IA et en particulier les start-up de ce secteur.
  • d’utiliser des données et métadonnées riches, sourcées et sécurisées juridiquement.
  • de disposer d’une qualité et d’une structuration homogène des données ainsi que de leur enrichissement en continu et de leur disponibilité sur le long terme
  • de bénéficier d’un accompagnement personnalisé scientifique pour la constitution de corpus spécialisés mais également en gestion des données. 

Pour les producteurs de contenus, la capacité de mettre en œuvre facilement :

  • la numérisation et le traitement (OCR notamment) sur les chaînes de production de la BnF de leurs contenus non numérisés, à partir des collections BnF ou de leurs propres archives.
  • l’archivage sécurisé et pérenne de leurs documents numériques au sein de SPAR, le système d’archivage de la BnF.
  • le développement de nouvelles opportunités commerciales au sein d’une offre multi-producteurs facilement identifiable par les utilisateurs, l’accroissement de leurs contenus disponibles pour l’IA mais aussi la valorisation des expertises de leurs auteurs et contributeurs (pour l’évaluation des modèles génératifs par exemple…). Ceci concerne en particulier les éditeurs proposant des contenus spécialisés (publications scientifiques, presses universitaires, revues savantes, édition publique etc.) qui ne peuvent engager seuls les coûts techniques et marketing pour s’adresser au secteur de l’IA.

Pour une étude de votre projet par les équipes de la BnF et une proposition de services adaptés à votre besoin : prestations.numeriques@bnf.fr

Les services dédiés à la recherche scientifique académique 

Depuis 2021, le BnF DataLab, un laboratoire à la fois physique et numérique, facilite l’accès à toute la richesse des données de la BnF pour la recherche, s’appuyant notamment sur la fouille de données et l’IA. Le DataLab propose ainsi un ensemble de services d’accueil et d’accompagnement réservés aux chercheurs, depuis l’aide à la constitution de corpus jusqu’à leur livraison sur un poste paramétré pour l’analyse.

 

En savoir plus sur le BnF DataLab

Les conditions d’utilisation des documents et données de la BnF dans le cadre de l’intelligence artificielle

L’utilisation de documents et données numériques ou d’informations extraites par la BnF de ces documents (OCR en particulier) dans le cadre d’un projet en Intelligence artificielle (IA) ayant pour objet des traitements de données par l’IA ou de l’IA générative, est :

  • gratuite à des fins de recherche scientifique académique à but non lucratif, sous réserve de la mention de source BnF.
  • payante pour toute autre utilisation. Elle doit alors faire l’objet d’une déclaration à la BnF et d’une contractualisation, sous la forme d’une licence. Le mode de rémunération de la BnF est adapté au modèle économique de l’utilisateur et à l’économie générale de son projet.

 

Important à savoir
Conformément au code de la propriété intellectuelle, les documents encore protégés au titre du droit d’auteur et/ou des droits voisins ne peuvent en aucun cas faire l’objet d’une utilisation à des fins d’exploitation par des systèmes d’intelligence artificielle sans l’accord des ayants droit.

La BnF, source de données de la connaissance

La BnF a constitué ces 30 dernières années de vastes ensembles de données numériques, avec un réservoir de plusieurs centaines de milliards de mots, en accroissement de 7,5 milliards par an, auquel s’ajoutent 2 pétaoctets de données issues du dépôt légal du web, 2 pétaoctets de données audiovisuelles, ressources qui seront démultipliées à l’avenir avec la mise en œuvre du dépôt légal des documents nativement numériques.

La BnF dispose par ailleurs de collections physiques de textes imprimés sans équivalent, dans tous les domaines du savoir, avec notamment 17 millions de livres et recueils et 420 000 périodiques dont 35 000 vivants dont seulement 5% ont été numérisés, majoritairement du domaine public. Le potentiel de données qui peut être mises à disposition est donc immense. Il faut néanmoins insister sur le fait qu’actuellement les textes (monographies et périodiques), numérisés et exploitables via l’OCR, sont majoritairement antérieurs à 1950 et appartenant au domaine public. Pour la numérisation et l’utilisation de documents sous droit par un utilisateur tiers, l’accord des ayants droit est bien sûr obligatoire.

Au-delà de leur volume, c’est également la qualité de ces données qui fait leur valeur : elles sont en effet enrichies de métadonnées souvent plus développées que celles du secteur commercial avec près de 20 millions de notices bibliographiques de référence.

 

En savoir plus sur les collections numériques de la BnF