Soutenez
le Trésor national
Formulaire de recherche

Accès aux documents numériques : les principes

Chaque semaine, plusieurs milliers de documents sont numérisés par les équipes internes de la BnF et par les prestataires de services de celle-ci. Il est alors nécessaire d’effectuer un ensemble d’opérations ayant pour objectif de mettre à disposition des internautes ces nouveaux documents à partir de Gallica.
Lorsque les documents numérisés arrivent à la BnF, ils subissent un ensemble d’opérations ayant pour objectif de les ajouter dans le catalogue général de la BnF, de les transformer pour qu’ils soient accessibles aux internautes dans les meilleures conditions, de les référencer dans le moteur de recherche de Gallica (on parle ici d’indexation des documents) et de mettre à jour la bibliothèque numérique.

Accès aux documents numériques : index et moteur de recherche

Pour un document numérique, deux principales catégories de données sont indexées :

  • les métadonnées,
  • le contenu (le "plein texte"), si celui-ci est disponible.

Il est important de noter que les tables des matières et/ou les index (géographiques, des personnes citées, etc.) des documents sont également convertis en mode texte pour permettre la recherche et la navigation dans le document.

L'index de Gallica est donc constitué à partir des métadonnées, du plein texte disponible, des tables des matières existantes, des légendes des images, ainsi que des entrepôts OAI des partenaires extérieurs.

Lucene est le moteur de recherche choisi par la BnF (moteur de recherche de Wikipédia).

Lucene est un moteur de recherche libre écrit en Java qui permet d'indexer et de rechercher du texte.
Il permet en particulier de pondérer les différents éléments indexés d'un document les uns par rapport aux autres : par exemple, lors de la recherche du mot "misérable", les documents les plus pertinents (affichés en tête de liste) seront ceux possédant le mot "misérable" dans les métadonnées (le titre par exemple) plutôt que dans le contenu des documents.

Des logiciels libres pour Gallica

La BnF privilégie l'utilisation de logiciels libres pour des raisons de pérennité, de coût de réalisation et de maintenance logicielle.
L'intégralité de Gallica est réalisée en utilisant des logiciels libres :

  • LUCENE comme moteur de recherche ;
  • APACHE comme serveur Web ;
  • TOMCAT comme moteur d'applications ;
  • ECLIPSE comme outil de développement.

mardi 17 décembre 2013

Écouter la page

Partagez