• Actualités Professionnelles

Lancement de la 17e collecte large annuelle des sites web français

Baie de stockage - David Paul Carr/BnF

Dans le cadre de sa mission de dépôt légal du web, la BnF a lancé le 11 octobre 2021 sa campagne annuelle de collecte du plus grand nombre de sites web dont les producteurs sont domiciliés en France ou dont les données sont hébergées en France.

La liste de ces sites composée de près de 5,5 millions de noms de domaines de départ est le résultat d’un travail de compilation de différentes sources issues de la BnF et de ses partenaires tels que le Centre ISSN France et des bureaux d’enregistrements comme l’Afnic, l’ICANN et OVH.

C’est ensuite un robot moissonneur prénommé Heritrix qui pendant plus d’un mois va copier les pages de ces millions de sites en récupérant tous les fichiers associés.

Une fois les pages web collectées, archivées et indexées, elles viendront enrichir les Archives de l’internet de la BnF dont les collections remontent à 1996, constituant ainsi la mémoire numérique de demain pour le patrimoine et la recherche.


En savoir plus sur le dépôt légal des sites web

Publié le

Voir aussi