Soutenez
le Trésor national
Formulaire de recherche

Pour les professionnels

Collecte de contenus web en accès libre

Depuis 2006, la Bibliothèque a pour mission de collecter, conserver et communiquer les sites internet du « domaine français » au titre du dépôt légal. À ce titre, elle moissonne en priorité des sites dont l’extension est lié au territoire français (.fr, re, .nc., etc.), ainsi que des sites dont les contenus sont produits en France ou dont les auteurs sont domiciliés en France (.com, .org, etc.).

Nature privée ou publique d’une source web ?

Le dépôt légal s’applique à ce qui est considéré comme publié, c’est-à-dire mis à la disposition du public, en ligne ; les échanges à caractère privé ne sont pas concernés. Les sites, blogs, voire les parties publiques de réseaux sociaux, sont donc soumis au dépôt légal, à l’inverse des courriels, des espaces privés des réseaux sociaux ou des sites intranet qui en sont exclus. C’est la nature du destinataire qui indique le caractère public ou privé : dès que le destinataire doit être spécifiquement agréé par l’émetteur du site (par exemple par réception d’un mot de passe ou par acceptation comme membre d’un réseau), le document est d’ordre privé.

Un dépôt légal représentatif

Le dépôt légal des documents sur support vise à une collecte exhaustive de la production française. Cet objectif n’est plus atteignable pour les publications en ligne. La mission confiée à la BnF par le code du patrimoine est donc de constituer des collections représentatives de la production disponible sur l’internet français. A cette fin, la BnF a élaboré une méthodologie qui s’appuie sur les principes scientifiques et patrimoniaux du dépôt légal tout en tenant compte des performances et des limites des outils de collecte.

La méthodologie repose sur trois niveaux de formalisme :
  • La politique générale de la BnF s’appuie sur le cadre légal et réglementaire (le code du patrimoine), le respect des principes du dépôt légal, et prend en compte le total des ressources disponibles. Elle concerne tous les types de collecte ;
  • Le périmètre des collectes ciblées est fixé par la charte documentaire de la BnF, déclinée par départements thématiques et formalisée grâce à des paramètres techniques de collecte ;
  • Plus spécifiquement, des guides particuliers peuvent être rédigés pour des collectes projet pour fixer les thématiques, les durées et les volumétries.

Une conjugaison de collectes larges et ciblées

Afin de garantir la représentativité de ses archives, la Bibliothèque a choisi de conjuguer deux types de collectes. La collecte large, résolument non-sélective, est réalisée tous les ans et cherche à couvrir l’ensemble de l’internet français. Elle est complétée par des collectes ciblées, plus fréquentes, de sites sélectionnés par des bibliothécaires de la BnF ou par ses partenaires. La BnF cherche à garder un équilibre dans l’allocution des ressources pour chacun de ces deux types de collecte. La collecte large représente ainsi une volumétrie annuelle égale au total des collectes ciblées.

La collecte large : une collecte annuelle et non-sélective

Afin d’identifier et de collecter les sites web français, la BnF a passé des accords avec des organismes en charge de la gestion de noms de domaines, comme l’Association française pour le nommage internet en coopération (AFNIC) et l’Office des postes et télécommunications de Nouvelle-Calédonie (OPT NC). Ces institutions lui fournissent tous les ans la liste complète des noms de domaine en .fr, .re et .nc, qui servent de point de départ à la collecte large. Celle-ci est également complétée par des noms de domaines que la BnF a réussi à identifier comme français. Chaque année, plusieurs millions de sites sont ainsi capturés, jusqu’à une profondeur déterminée à l’avance (de l’ordre de quelques milliers de fichiers par site).

Les collectes ciblées : une sélection en réseau

Certains sites sont mal couverts par la collecte large, soit parce qu’ils nécessitent des collectes plus régulières, soit parce qu’ils sont particulièrement profonds. Ainsi, certains sites sont « photographiés » une fois par jour si leur importance patrimoniale le justifie : c’est notamment le cas de sites des grands quotidiens d’actualité. D’autres sites doivent être pris à un moment particulier, comme les sites de festivals, d’événements politiques, culturels ou sportifs.

Enfin, certains sites sont si vastes qu’ils nécessitent l’allocation de ressources considérables pour que la collecte soit la plus complète possible : les grandes plates-formes de publication de blogs ou de vidéos, les principaux sites de l’État ou des établissements de recherche…

La sélection de ces sites faisant l’objet d’une attention particulière est assurée par un réseau de bibliothécaires ou de chercheurs, dans leurs domaines d’expertise respectifs, qui travaillent soit au sein de la BnF, soit dans des établissements partenaires : bibliothèques municipales ou universitaires, laboratoires de recherche, associations…

Une collecte automatisée

Concrètement, la collecte est effectuée par des robots qui « moissonnent » le web français, à des fréquences et selon des paramètres des profondeurs choisies par l’équipe dépôt légal de l’internet à la BnF, conformément aux demandes des sélectionneurs de sites.

Focus sur la production annuelle de 2012

Le flux de production est maintenu en continu toute l’année, exception faite de quelques jours de maintenance sur les serveurs de collecte. Une période de plus grande intensité se déroule d’octobre à décembre, pendant la collecte large. Les deux principaux indicateurs permettant d’évaluer la collection constituée sont le nombre d’URL, c’est-à-dire de fichiers web (2,2 milliards en 2012) et le volume (90 To).

L’analyse des extensions de sites (Top Level Domain – TLD) montre une forte prédominance du .fr dans les URL de départ (95%). Cependant, cette domination est moins nette si on regarde le total des URL effectivement collectées (48% en .fr). Cela s’explique par l’importance des redirections vers des TLD hors .fr ainsi que par la présence de plateformes de stockage d’images ou de vidéos souvent sur .com (38%).

L’analyse par type MIME (sur les formats de fichiers) montre, en volume, une forte proportion de fichiers vidéo (28%) qui arrive juste au-dessus des fichiers texte (26%) et largement devant les fichiers image (18%) et audio (6%).

Enfin, il apparaît que la plupart des sites web sont collectés totalement puisque la collecte large permet de couvrir les domaines ayant moins de 10 000 URL (soit 98,8% du total).

jeudi 21 novembre 2013

Écouter la page

Contact

Département du dépôt légal
Service du dépôt légal numérique
Courriel : depot.legal.web@bnf.fr

Bibliographie

Partagez