Soutenez
le Trésor national
Formulaire de recherche

SPAR : réalisation de la partie logicielle

Le marché de réalisation

A la suite du marché d’acquisition de l’infrastructure, la Bibliothèque nationale de France a lancé en juin 2007 un appel d'offres pour la réalisation de la partie logicielle, remporté par la société Atos Origin. Le système de préservation à réaliser se doit d'être conforme au modèle OAIS, d'offrir un fort niveau de modularité garant de la pérennité du système, de garantir des temps de réponse performants et de couvrir l’ensemble des filières d’acquisition de données numériques :

  • filière de numérisation de conservation,
  • filière de numérisation de reproduction,
  • dépôt légal automatique,
  • dépôt légal négocié,
  • archivage légal des documents administratifs et techniques de la BnF,
  • dépôt et tiers archivage dans le cadre de sa politique de coopération nationale,
  • acquisition et don de données numériques.

Au-delà de la réalisation du noyau commun du système de préservation, la mise en place de ce projet au sein de la Bibliothèque nationale de France se déroule d’une manière itérative, filière par filière. Le premier périmètre couvre l’ensemble de la Bibliothèque numérique. Il constitue un sous-ensemble du projet global et est déployé en priorité.

Les modules de SPAR

Le système SPAR est structuré en modules indépendants, ce qui assure une bonne pérennité des composants (aisément remplaçables) et permet une distribution propice à répondre aux performances exigées.

La modularité de SPAR est directement inspirée du modèle OAIS.

Le module Versement
Ce module reçoit les données à verser (SIP) de la part des producteurs conformément au protocole de versement négocié au préalable avec l’administration de l’Archive . Une fois le versement validé par les contrôles effectués, les données sont empaquetées pour l'archivage (AIP) avant d'être remises au stockage.

Le module Stockage
Ce module assure les opérations liées au stockage des fichiers numériques ("objets-données") qui lui sont confiés sous forme de paquets, dits AIP. Il est une couche d’abstraction des mécanismes et des systèmes de stockage vis-à-vis des autres modules. Principalement, il garantit l’intégrité des objets-données, assure l’adéquation de la hiérarchie de stockage en fonction des exigences des producteurs et de la communauté des utilisateurs en terme de performance et disponibilité (classes de service).

Le module Gestion de données
Ce module assure les fonctions et services relatifs à l'enrichissement, la conservation et l'accès à l'Information de description (qui identifie et documente les fonds de l’Archive) et aux données administratives utilisées pour gérer l’Archive.

Le module Gestion des droits
Le module Gestion des droits est un module chargé de gérer l’information de droits associée à chaque donnée diffusée. Il est alimenté par des métadonnées de droits ainsi que des arbres de décision, fournis par le système SOLON.. Il « joue » les arbres de décision selon les utilisateurs cible afin d’associer une licence aux données sortantes.

Le module Accès
Ce module est en charge de fournir les données à diffuser sous la forme de paquets, dits DIP, à la communauté des utilisateurs. Pour cela, il offre des fonctionnalités de recherches et des demandes de rapports ainsi que des mécanismes de génération et de transformation des données archivées en données diffusables.

Le module Administration
Ce module assure l’organisation de toutes les procédures d’archivage et surveille leur bon déroulement. Pour cela, il est en relation avec les producteurs et les utilisateurs ainsi qu’avec toutes les autres entités fonctionnelles dont il orchestre le travail. Il garantit le bon déroulement de l’ensemble des fonctions de l’Archive et peut rendre des comptes.

Le module Préservation
Ce module permet de définir et de surveiller les formats et les standards utilisés dans le système SPAR. Il est alimenté par les informations en provenance de l’outil de pilotage ("Système de pilotage") ainsi que du registre de formats de telle sorte qu’il soit en mesure de suivre les changements de formats ou de planifier les évolutions de stockage ou de politiques (politique de préservation ou politique d’accès).

Le modèle d'information des paquets d'archive

Les paquets d'archive sont constitués de différents types d’informations, classés dans le système suivant leur contenu et leur rôle dans le fonctionnement de l’Archive.

Dans SPAR, on distingue essentiellement les concepts suivants:

  • concept d’objet-données, qui correspond aux fichiers numériques à conserver
  • concept de métadonnées, qui correspond aux informations nécessaires pour rendre intelligible les objets-données (en particulier, l’information de représentation et l’information de pérennisation)
  • concept d’empaquetage, qui décrit les liens réels ou logiques des différents composants enregistrés d’un paquet sur un support. Dans SPAR, il est exprimé à l’aide d’un Manifeste METS qui correspond à un format d’empaquetage.

Concernant les métadonnées, le système SPAR utilise les standards les plus aboutis :

  • Dublin Core pour les informations de description, c'est-à-dire la description de l'objet que l'on veut archiver,
  • MIX pour encoder les métadonnées techniques des images fixes,
  • textMD pour encoder les métadonnées techniques des fichiers textuels,
  • ODRL pour encoder les licences d’utilisation des objets numériques,
  • PREMIS pour les informations de provenance, c'est-à-dire le suivi de la vie des objets-données

Le cycle de vie d'un paquet d'archive

Au cours du temps, il peut être nécessaire d'agir sur les paquets archivés soit pour apporter une correction soit, plus vraisemblablement, pour réaliser des migrations vers de nouveaux formats en cas d'obsolence.

Dans SPAR, le paquet d'archive suit un cycle de vie qui dépend des transformations qui lui sont appliquées :

En définitive, tout paquet archivé a au plus trois versions :

  • la version 0 : c'est la version originale qui a été versée dans l'Archive,
  • la version n-1 : c'est l'avant-dernière version qui peut servir si la dernière transformation appliquée était erronée,
  • la version n : c'est la version courante qui sert à distribuer le contenu dans un format actuel.

jeudi 21 novembre 2013

Écouter la page

Partagez