Soutenez la BnF
Formulaire de recherche

Pour les professionnels

ARK : Foire aux Questions

Comment obtenir un NAAN ?

Il faut s'enregistrer auprès de la California Digital Library (email : ark@cdlib.org). L'inscription est gratuite. La CDL vous attribuera un NAAN sur 5 chiffres et mettra à jour le répertoire des autorités nommantes.

Qui utilise ARK ?

De nombreuses institutions dans le monde utilisent les identifiants ARK, par exemple la California Digital Library, Library and Archives Canada, Bibliothèque et Archives nationales du Québec et Internet Archive.

En France, outre la BnF, plusieurs organismes utilisent les identifiants ARK. Il s'agit essentiellement d'institutions publiques à vocation patrimoniale :
  • Institutions versées dans la préservation des données numériques : le Centre Informatique national de l'Enseignement Supérieur (CINES), Centre nationale d'Etudes Spatiales (CNES) ;
  • Bibliothèques : Bibliothèque municipale de Toulouse, Bibliothèque interuniversitaire Cujas, Mediatèca Occitana (CIRDOC) ;
  • Archives : Archives nationales d'outre-mer (ANOM), Archives départementales de l'Allier, du Cantal, de la Côte-d'Or, du Doubs, de la Gironde, de la Marne, de la Nièvre, du Pas-De-Calais, du Rhône, de la Savoie, de la Somme, du Territoire de Belfort ; Archives de la ville de Pontivy ;
  • Autres organismes publics à vocation patrimoniale : le Centre de Musique Baroque de Versailles (CMBV) et le site Son d’Aquí pour le patrimoine musical ; l'Institut national d'Histoire de l'Art (INHA) ;
  • Il est également utilisé par d'autres organismes publics tels que le Ministère de la Culture et de la communication (MCC), le Centre national de documentation pédagogique (CNDP), la Ville de Paris, la Ville de Besançon et le Conseil général de la Martinique; il est enfin utilisé par l'Agence régionale ACCOLAD.
Une liste exhaustive des institutions utilisant des identifiants ARK est disponible sous la forme du Répertoire d'autorités nommantes : http://www.cdlib.org/uc3/naan_registry.txt.

Comment générer ses propres identifiants ?

a/ Définir la structure de ses noms ARK

Il faut d'abord obtenir un NAAN.

Ensuite, il faut définir des règles d'utilisation de ses identifiants : que souhaite-t-on identifier avec des ARK ? S'agit-il de notices bibliographiques ? de documents physiques ? de documents numériques ? de concepts ? Si l'on souhaite l'utiliser pour plusieurs types de ressources, l'utilisation de préfixes correspondant à des sous-ensembles est recommandée.

Par exemple, à la BnF, les identifiants commençant par "cb" correspondent à des notices catalographiques du Catalogue Général ; les identifiants commençant par "b" correspondent aux documents numériques ; et pour ces derniers, le préfixe "pt6k" correspond aux imprimés numérisés, tandis que "tv1b" correspond aux images fixes et aux manuscrits numérisés.

b/ Utiliser un logiciel pour générer des identifiants ARK

Il faut ensuite utiliser une application permettant de générer des identifiants conformes à la spécification ARK et uniques au sein de son NAAN. Cela peut être un outil développé en interne, mais un logiciel open source existe déjà pour cela : NOID (Nice Opaque Identifiers). Ce logiciel sert à générer des identifiants uniques, et peut générer des identifiants ARK en utilisant un paramétrage spécifique.

Un service récemment mis en place par la CDL permet, moyennant une inscription, de générer des identifiants ARK et de les maintenir : EZID. Ce service existe à la fois sous forme d'une interface en ligne, et sous la forme d'une API qui permet d'automatiser la génération en masse d'identifiants. Ce service est gratuit dans la mesure où l'institution utilise ARK (ce service fonctionne aussi pour les identifiants DOI).

c/ Utiliser un logiciel pour résoudre des identifiants ARK

Il faut ensuite un logiciel permettant de relier une adresse comportant un ARK à la ressource qui y correspond.

Il faut définir quel(s) hôtes (les NMAH) vont résoudre les identifiants ARK pour son institution. À la BnF par exemple, deux hôtes sont utilisés : gallica.bnf.fr pour les documents numériques et catalogue.bnf.fr pour les notices catalographiques. Un hôte générique ark.bnf.fr permet également de rediriger un identifiant ARK vers le NMAH approprié (gallica.bnf.fr ou catalogue.bnf.fr) en fonction du type de ressource. NOID ou le service EZID mentionnés au paragraphe précédent, permettent de réaliser ces opérations.

Ensuite, il faut définir un ensemble de qualifieurs qui vont permettre de demander, pour une ressource donnée, une partie de cette dernière (page d'un document numérique par exemple) ou des services sur cette ressource (version particulière d'un document, affichage du document, format d'une notice bibliographique...). Par exemple, à la BnF, on utilise /fn pour demander une page particulière d'un document numérique (où n correspond au numéro de la page), et .chemindefer pour afficher la première page du document avec l'ensemble de ses pages disposées en chemin de fer sous forme d'imagettes.

En résumé, cette étape nécessite de choisir un NMAH, ou hôte chargé de résoudre les ARK, ainsi que des qualifieurs, si l'on a besoin de demander des parties de, ou des services sur, la ressource identifiée.

Quelle est la différence entre un identifiant ARK et un DOI ?

Comme ARK, DOI (Digital Object Identifier) est un schème d'identifiants pérennes. À la différence d'ARK qui appartient davantage au monde des institutions culturelles publiques (notamment bibliothèques, archives et musées), DOI est issu du monde des éditeurs et du e-commerce, et est utilisé fréquemment pour identifier des articles et des publications en ligne.
La génération d'un identifiant DOI est payante mais le montant est laissé à la discrétion de chaque Agence DOI (registration agency) comme DataCite ou CrossRef.
Le système Handle, auquel DOI est souvent associé, est un outil permettant de générer et de gérer des identifiants en général et des DOI en particulier ; le service EZID déjà cité permet aussi de le faire depuis peu. Chaque ressource identifiée par un DOI se voit associer des métadonnées exprimées selon le modèle de données INDECS. Une conversion de métadonnées pré-existantes vers ce format est donc nécessaire.

DOI et ARK, qui sont tous les deux des schèmes d'identifiants persistants relativement proches en termes de structure, diffèrent surtout par leurs communautés et leur approche : ARK se fonde sur le modèle ouvert et plutôt centralisé des institutions patrimoniales publiques ; il en résulte une volonté de penser la persistance sur le très long terme.
Une grande autonomie est accordée à toute autorité nommante, la CDL se chargeant uniquement de la maintenance de la spécification ARK et du répertoire des autorités nommantes. À l'inverse, DOI est fondé sur le modèle payant et plus décentralisé des éditeurs et fournisseurs de contenus en ligne.
Chaque agence DOI est en pratique le niveau opérant où sont faits la plupart des choix techniques et des services proposés; avec ARK, ce niveau intermédiaire n'existe pas, chaque autorité nommante ARK ayant une liberté plus grande de définir sa propre politique et ses propres services.

Le choix de DOI, d'ARK ou d'autre schèmes d'identifiants persistants dépend donc de vos objectifs et de votre stratégie.

Quel est l'avantage d'ARK par rapport à de simples URL ?

Les URL sont des chaînes de caractères permettant d'accéder directement à une ressource par le biais du protocole HTTP ou HTTPS. À ce titre, elles ont l'avantage de donner un accès immédiat à la ressource, dans la mesure où le protocole HTTP est normalisé et utilisé partout sur le Web. En revanche, une URL peut très facilement être "cassée", c'est-à-dire ne plus donner accès à une ressource (ou à la même ressource qu'auparavant). Il y a plusieurs raisons possibles à cela :
  • Les ressources sont toujours là, mais ont changé d'emplacement : cas fréquent lorsque l'architecture d'un site est modifiée, ou quand les ressources sont déplacées vers un autre site, ou un autre hôte.
  • Les ressources ont été retirées ; l'URL ne renvoie alors à rien.
  • Les ressources ont été remplacées : dans ce cas la même URL renvoie désormais à une ressource différente.
ARK tente de répondre à ces problèmes :
  • Les ressources se voient attribuer un identifiant unique et pérenne.
  • Selon ARK, si le site ou l'hôte change, seul le NMAH doit être changé, mais les identifiants persistent. Cela facilite la maintenance de l'accès aux ressources sur le long terme.
  • Si l'on souhaite faire référence à une version particulière d'une ressource, cela peut être géré en définissant et implémentant un qualifieur de service. Ces services additionnels nécessitent toutefois de définir un comportement par défaut (quel(s) service(s) est(sont) utilisé(s) par défaut si l'on ne demande pas de service particulier).
  • Une institution utilisant ARK s'engage à maintenir le lien entre l'identifiant et la ressource qu'il identifie. Dans le cas de la suppression de cette ressource, il faut donc au moins donner une description minimale de la ressource et préciser qu’elle a été supprimée.
Bien sûr, ces problèmes peuvent être gérés ou réglés en définissant, au niveau d’une institution, des URLs bien conçues et faciles à maintenir, et par une politique cohérente de nommage de ces URLs. La plus-value d’ARK réside dans le fait qu’il intègre nativement ces problématiques dans sa spécification, fournissant ainsi une bonne vue d’ensemble des problèmes d’accès sur le long terme à prendre en considération. Implémenter la spécification ARK oblige à prendre en compte ces aspects d’accès sur le long terme dès l’origine ; ce n’est pas le cas des URLs.

vendredi 28 juin 2013

Écouter la page

Contact

Sébastien Peyrard
Département de l'Information bibliographique et numérique
sebastien.peyrard@bnf.fr
Partagez