Soutenez la BnF
Formulaire de recherche

Pour les professionnels

Web sémantique, web de données : définitions

Le web sémantique

Le terme de web sémantique a été proposé par Tim Berners Lee en 2001 (« The Semantic Web », Scientific American Magazine, May 17, 2001) pour désigner une évolution du web qui permettrait aux données disponibles (contenus, liens) d’être plus facilement utilisables et interprétables automatiquement, par des agents logiciels. Pour permettre cette évolution, un certain nombre de standards et de technologies ont été développés par le W3C, avec pour objectif de sortir les données des silos fermés que constituent les bases de données en ligne.

Le web sémantique part du principe que les données structurées (par exemple, les métadonnées contenues dans un catalogue de bibliothèque) sont déjà disponibles ; il propose un ensemble de techniques visant à les rendre plus utilisables.

Les technologies du web sémantique permettent de créer de telles données, d'exprimer des vocabulaires et des règles qui les décrivent, et de bâtir des systèmes capables de les manipuler dans de bonnes conditions d'interopérabilité.

Il ne faut pas confondre le web sémantique avec les technologies de traitement automatique des langues (TAL) ou d'intelligence artificielle (IA) qui ont pour objet l'extraction automatique d'information ou de connaissances à partir de données peu ou pas structurées.

Le web de données

Le web de données (Linked Data) est une initiative visant à favoriser la publication de données structurées sur le web, non pas sous la forme de silos de données isolés les uns des autres, mais en les reliant entre elles pour constituer un réseau global d'informations.

Principes du web de données

Les quatre grands principes du web de données sont :
  • nommer les ressources avec des URI ;
  • utiliser des URI http (ou URI déréférençables) de façon à ce qu'on puisse utiliser ces URI pour accéder à des informations sur les ressources ;
  • lorsqu'on déréférence une URI, renvoyer des informations utiles grâce à RDF et SPARQL ;
  • se relier avec d'autres URI pour créer un réseau de liens.
Le respect de ces quatre grands principes permet de relier les différents jeux de données accessibles en ligne, et de parcourir les données de façon transparente et globale.

Ainsi, le web de données contribue à réaliser l’un des objectifs initiaux du web sémantique : sortir les données des silos pour qu’elles puissent être plus facilement exploitées par des machines.

Histoire de l'adoption du web de données

L'application des technologies du web sémantique a été longtemps limitée au domaine de la recherche. Une adoption plus large, par exemple dans le monde de l'entreprise, était nécessaire pour faire de la vision du Web sémantique une réalité.

Le lancement de l'initiative « Linking Open Data » par le W3C en 2006 avait pour objectifs :

  • de promouvoir une vision du web comme une base de données globale,
  • et de relier les données sur le web de la même façon que l'hypertexte permet de relier des documents (les pages web).

Cet effort a permis de développer des guides de bonnes pratiques et d'encourager la publication des premiers ensembles de données sous licence libre.

Le web de données a ainsi pu atteindre une masse critique de données disponibles et librement réutilisables, ouvrant la porte à de nombreuses expérimentations. Il constitue une approche simple et pragmatique des technologies du web sémantique. Il permet de rendre ces données reliées exploitables par des machines afin de construire de nouvelles applications.

Si les premiers contenus disponibles dans le web de données relevaient majoritairement du domaine de la recherche, dans la continuité des travaux du web sémantique, le panorama s'est rapidement élargi :

  • des entreprises comme Metaweb (rachetée en 2010 par Google), propriétaire de l'encyclopédie Freebase, ou des organismes comme la BBC en Grande-Bretagne, ont publié leurs données dans le web de données ;
  • d'importantes initiatives ont été développées dans les pays anglo-saxons pour mettre à disposition de façon libre et ouverte les données publiques produites par les gouvernements.

Quelques ressources fondatrices du web de données :

  • DBpedia, base issue de la conversion en RDF des données de l'encyclopédie collaborative Wikipedia ;
  • Geonames, l'une des principales bases de noms de lieux avec les informations associées ;
  • MusicBrainz, base d'informations en RDF sur les œuvres et les artistes musicaux.

Autres ressources majeures :

lundi 16 décembre 2013

Partagez