• Brèves de la BnF

Publication du Guide juridique sur l’utilisation des données patrimoniales dans le cadre de l’intelligence artificielle générative

BnF - INA
Intelligence artificielle et justice - D.R.

Comment concilier innovation en IA, réutilisation de données patrimoniales et respect des droits ?

La BnF et l’INA publient un guide juridique sur l’utilisation des données patrimoniales à des fins d’entraînement de modèles d’intelligence artificielle générative. Ce guide opérationnel propose une analyse actualisée du cadre juridique français et européen applicable notamment à l’utilisation des données issues des collections conservées par les deux institutions. Il clarifie les règles en vigueur en matière de droit de la propriété intellectuelle, du droit des données personnelles, ou encore les nouvelles obligations de transparence des modèles consacrées par le règlement européen sur l’IA. 

Des communs numériques pour l’IA générative

Le guide juridique est un livrable du projet ArGiMi, mené par la BnF et l’INA, avec les sociétés Artefact, Giskard et Mistral AI. ArGiMi a été lauréat en 2024 de l’appel à projets « Communs numériques pour l’IA générative » du programme France 2030, porté par Bpifrance. Le projet poursuit l’objectif de créer et partager des communs numériques, dont un grand modèle de langue francophone ouvert, et de contribuer à la souveraineté technologique française. Le modèle répondra aussi à des usages ciblés sur les collections patrimoniales avec, pour la BnF, une attention particulière portée à la correction des textes issus de l’océrisation. Pour la BnF, cet enjeu est primordial. La qualité de l’OCR conditionne l’accès et l’exploitation scientifique des plus de 11 millions de documents diffusés sur sa bibliothèque numérique Gallica. 

Pour l’INA il vise à améliorer les grands modèles de langage pour les faire progresser dans leur compréhension du français oral et de la diversité des natures de programmes qu’il conserve. Il constitue une brique essentielle à tous les outils actuels d’extraction d’informations utilisés pour analyser les transcriptions de ses fonds, que ce soient la segmentation sémantique, la catégorisation ou encore la reconnaissance d’entité nommée.

 

Publié le

Voir aussi