• Actualités Professionnelles

Lancement de la collecte large annuelle des sites web français

À partir du 6 octobre 2020
Heritrix – Robot du Dépôt légal des sites web - BnF
Dans le cadre du dépôt légal du web, la BnF a lancé le mardi 6 octobre 2020 sa campagne annuelle de collecte des sites web français.


Afin de constituer une mémoire de ce qui se publie sur « la toile », la BnF collecte chaque année à l’automne, le maximum de sites, plateformes, médias sociaux et autres contenus dont les producteurs sont français ou dont les données sont hébergés en France. Pour réaliser cette collecte, un robot moissonneur récupère les pages de sites listés préalablement.

C’est une toute nouvelle version de ce robot, prénommé Heritrix, qui va parcourir et collecter quelque 5,2 millions de domaines. Il lui faudra environ 6 semaines pour collecter environ 115 téraoctets de données.
Une fois les pages web collectées, archivées et indexées, elles seront ajoutées aux archives déjà existantes afin de constituer la mémoire numérique de demain pour le patrimoine et la recherche.
 

En savoir plus sur le dépôt légal des sites web

Publié le

Voir aussi