Soutenez la BnF
Formulaire de recherche

Pour les professionnels

Principaux standards du web Sémantique : les URI, RDF et SPARQL

Le web sémantique repose sur plusieurs briques technologiques, en particulier des identifiants fiables et pérennes (URI), le modèle (RDF) et le langage et protocole de requête SPARQL.

Les URI

Sur le web, on utilise le mécanisme des URI (Uniform ressource Identifier) pour identifier les ressources.
Pour être valides, les URI doivent :

  • respecter la syntaxe définie dans la RFC 3986 (Internet Engineering Task Force. Uniform Resource Identifier (URI): Generic Syntax) ;
  • être enregistrées, et donc commencer par un préfixe enregistré auprès de l'IANA (Internet Assigned Numbers Authority), suivi d'une syntaxe autorisé pour ce préfixe (exemples de préfixes enregistrés : http, ftp, urn, info...).

Les URL sont des URI dont le préfixe est 'http' et dont la particularité est d'identifier une ressource principalement par le mécanisme qui permet d'y accéder (par exemple, son emplacement sur un serveur, l'adresse d'un résolveur de liens jointe à des paramètres d'accès, etc.). On parle alors également d’« URI déréférençable ».

Lorsque des mesures ont été prises pour la bonne gestion des URL, en particulier leur pérennité même si le moyen d'accès ou la localisation de la ressource sont modifiés, on parle d' « URL gérées » ou encore d'« URI http ».

La note du W3C « Adresses URI sympas pour le web sémantique » précise les modalités de mise en œuvre des URI déréférençables pour le web sémantique. Elle définit les mécanismes de négociation de contenu qui permettent, à partir d'une même URI http, de renvoyer soit vers une page HTML, soit vers des informations en RDF, suivant les préférences du client.

En savoir plus

RDF, modèle et syntaxes

RDF (Ressource Description Framework) est un modèle de description des données dans lequel toute ressource est identifiée par une URI, et où l'on peut faire des assertions ou déclarations sur ces ressources sous la forme d'un triplet sujet/prédicat/objet.
Dans ce triplet, le sujet et le prédicat sont toujours exprimés par des URI. L'objet peut être exprimé sous la forme d'une URI ou d'une chaîne de caractères (littéral).
Un ensemble de triplets RDF qui décrivent une ressource ou un ensemble de ressources composent un graphe.

Les données en RDF peuvent être sérialisées en utilisant différentes syntaxes :

  • la syntaxe RDF/XML, qui correspond à l'expression en XML de données en RDF, est la syntaxe normalisée par le W3C : c'est la plus fréquente pour les échanges de données et les conversions ;
  • les syntaxes spécifiques de type N3, N-Triple et Turtle ;
  • la syntaxe RDFa qui permet d'encapsuler des données en RDF dans une page HTML.

La particularité du modèle de triplet est que chaque assertion est indépendante. Il n'existe donc pas de notion de « validation » d'un graphe, même si c'est la syntaxe RDF/XML qui est utilisée.

En savoir plus

RDF Primer
sur le site du W3C

SPARQL

Pour permettre la construction de requêtes sur les données en RDF, le W3C a élaboré le standard SPARQL. Il s'agit à la fois d'un protocole, d'un langage de requêtes, et d'un formalisme pour l'expression des résultats.

Les requêtes SPARQL permettent d’interroger dynamiquement les données en RDF, sans télécharger l’ensemble des données brutes.

Quelques exemples de services SPARQL endpoint :
En savoir plus

SPARQL Query Language for RDF
sur le site du W3C

Depuis septembre 2014, la BnF a ouvert un SPARQL endpoint. Ce dernier permet d’interroger les données en RDF de data.bnf.fr.

jeudi 18 septembre 2014

Partagez