Archives de l'internet

La BnF assure le dépôt légal de l’internet français. Sa collection de sites archivés, qui est parmi les plus anciennes et les plus riches dans le monde, est ouverteà toute personne justifiant d’une recherche.

Découvrir

Les archives de l’internet conservées à la BnF représentent à ce jour plus d’1 pétaoctet de données. Les toutes premières collections, constituées à titre expérimental et par l’apport d’Internet Archive, remontent à 1996.

L’archivage du web s’inscrit depuis 2006 dans le cadre de la mission de dépôt légal de la BnF. Il porte sur le domaine français, c’est-à-dire les sites enregistrés en .fr, sous une extension liée au territoire national (.re, ou .bzh par exemple), ou sous extension générique (.com ou .org par exemple) à la condition qu’ils soient produits en France ou que leur auteur y soit domicilié.

Les collectes sont réalisées à l’aide d’un robot-logiciel qui explore les sites comme le ferait un internaute, en copiant à mesure de sa progression tous les éléments constitutifs des pages: textes, images, fichiers audio et vidéo, animations, feuille de style et liens.La collecte ne prétend pas à l’exhaustivité mais repose sur un principe de représentativité. La BnF conjugue à cet effet deux modes de collecte. 

La collecte « large »

Réalisée une fois par an, l’objectif de cette collecte est d’avoir un échantillon du plus grand nombre de sites possibles. La liste de ces sites lui est communiquée par des bureaux d’enregistrement partenaires, tels que l’Association française pour le nommage de l’internet en coopération (Afnic) et OVH.  Chaque année, la BnF tente d’améliorer la couverture du web : entre 2007 et 2017, le nombre de domaines collectés est passé de 0,9 millions à 4,5 millions (soit environ 60% du web français).

Les collectes « ciblées »

Ces collectes ont  des paramètres de fréquence et de profondeur variables sur plusieurs dizaines de milliers de sites sélectionnés par des bibliothécaires, à la BnF et dans les bibliothèques de dépôt légal imprimeur en région ainsi que par des spécialistes ou des chercheurs.

Au sein de ces collectes ciblées, les collectes dites « courantes » portent sur des sites de référence, dans la continuité des autres types de collections de la BnF.  Les collectes projets, en coopération, documentent quant à elles les thématiques transverses, ou les événements majeurs, à l’instar des élections. 

Enfin il existe des collectes d’urgence qui concernent des événements inattendus ayant un fort impact sur la société et qui sont relayés de façon spontanée dans les réseaux sociaux.

L’actualité est bien représentée dans les collections au travers des sites de presse en ligne, des journaux au format PDF des titres de la presse quotidienne régionale et des réseaux sociaux.

Fréquence et profondeur

La fréquence et la profondeur (tout ou partie d’un site) des collectes sont adaptées selon la nature des sites et au rythme de leurs mises à jour afin d’en conserver des versions successives et représentatives de leur évolution. Chaque capture est datée et référencée avec précision, ce qui permet ensuite, via l’application Archives de l’internet, de remonter le temps et de naviguer à l’intérieur des sites archivés.

 

Panorama des collections
Approfondissez la découverte des Archives de l’internet Français en consultant le panorama des collections de 1996 à aujourd’hui.

Explorer

Les collections de dépôt légal du web sont consultables par tout chercheur accrédité depuis l’application Archives de l’internet, accessible dans les salles de recherche des différents sites de la BnF, sur les postes informatiques mis à votre disposition ou sur votre ordinateur personnel, grâce au portail d’accès aux ressources numériques AVEC.

 

 

Elles le sont également dans les bibliothèques de dépôt légal imprimeur en région offrant un accès distant.

 

La recherche se fait à partir de l’adresse exacte du site ou, pour certaines collections, en texte libre. Des « parcours guidés » dans les archives de l’internet, élaborés par des bibliothécaires ou des chercheurs, vous invitent à la découverte. Chaque jour, une sélection de sites est mise à la Une.

La liste de tous les sites sélectionnés dans le cadre des collectes ciblées est disponible sous licence ouverte sur le site BnF API et jeux de données ainsi que sur la plateforme Data.gouv.fr. Seuls quelques sites de presse et d’actualité et de blogs littéraires sont signalés dans le  Catalogue général, vous pouvez le consulter en choisissant l’onglet « cote » et en saisissant dans le formulaire la cote NUMAI.

 

Contribuer

Vous pouvez participer personnellement à la préservation de l’internet français en signalant des sites que vous estimez intéressants, qui risquent de disparaître, voire votre propre site en contactant le service du dépôt légal numérique.

Contact

Des projets de recherche peuvent être mis en place dans le cadre de l’appel à projets de la BnF ou d’autres structures de recherche. Pour plus d’information consultez la page « Activités scientifiques » [lien 5]

 

Ressources