Soutenez
le Trésor national
Formulaire de recherche

Pour les professionnels

Collecte de contenus web en accès protégé

La collecte des contenus web en accès libre se fait de façon automatique et n’implique pas de démarche active de la part des producteurs. Cependant, si tout ou partie d’un site est inaccessible pour des raisons techniques (base de données, contenu protégé par mot de passe, formulaire d'accès...) ou économiques (contenu payant, abonnement...), la BnF peut être amenée à contacter l’éditeur du site et à mener une instruction approfondie pour sa collecte.

Une évolution récente du contexte juridique

Le décret du 19 décembre 2011, qui modifie la partie réglementaire du code du patrimoine, a consolidé le dispositif juridique du dépôt légal de l’internet. Son adoption offre à la BnF des perspectives pour la collecte de contenus publics mais à l’accès restreint, notamment les contenus dont l’accès est soumis à paiement.

Collecte des sites de presse

Fin 2012, la BnF a lancé une expérimentation destinée à tester l’archivage de contenus soumis à paiement sur des sites web de presse quotidienne nationale ou régionale. L’objectif est de mettre en place un système de moissonnage par robot aussi bien des pages HTML que des fichiers PDF correspondant aux éditions papier des titres visés, notamment aux éditions locales des titres de presse quotidienne nationale.

Cette expérimentation suppose de contacter au préalable les éditeurs des sites de presse, qui fournissent à la BnF les « mots de passe et les clés d'accès aux documents protégés », conformément aux dispositions du code du patrimoine. Ces informations sont ensuite fournies aux robots de la BnF qui peuvent s’authentifier et récupérer les ressources visées. À ce jour, cette collecte régulière concerne une quinzaine de titres de presse.

Perspectives d’évolution

L'expérimentation, qui s’étend sur toute l’année 2013, vise à établir un système complet couvrant toutes les parties du cycle de vie documentaire (sélection, collecte, contrôle qualité, signalement, accès, préservation).

Lorsque la robustesse du système sera assurée, il sera élargi à un plus grand nombre de titres, en privilégiant les sites de presse quotidienne régionale. Il cherchera en priorité à récupérer les équivalents PDF des éditions locales qui ne sont plus collectées sous forme papier par la BnF, afin de garantir la continuité et la complétude des collections.

mercredi 22 octobre 2014

Écouter la page

Contact

Département du dépôt légal
Service du dépôt légal numérique
Courriel : depot.legal.web@bnf.fr

Bibliographie

Bibliographie complète sur le dépôt légal du web [fichier .pdf – 261 Ko – 22/10/14 – 10 p.] All we need is new preservation IFLA 2014
Partagez