mercredi 3 octobre 2012

Le Web sémantique chez les géants du Web

La génèse du Web sémantique

Le Web sémantique est une initiative du W3C (World Wide Web consortium) portée par Tim Berners-Lee, inventeur du Web. Il vise à enrichir les pages Web de méta-données afin de rationaliser le travail des moteurs de recherche : il propose d’utiliser une classification sémantique pour caractériser le contenu des pages Web plutôt qu’une recherche plein texte. Les normes techniques écrites dans le cadre du Web sémantique sont des langages XML : RDF (Resource Definition Framework) et OWL (Web Ontology Language). L’adoption d’OWL est très anecdotique. RDF est utilisé par divers projets en ligne comme DBpedia, FOAF, SKOS, MusicBrainz, mais pas par l’ensemble des sites Web.

La vague Web 2.0

Le Web 2.0 a proposé de remplacer ces normes complexes à manier par des systèmes de classification moins normalisées et plus simples : les micro-formats (μF).
On peut citer les exemples de micro-formats suivants : hCalendar pour les événements, hCard pour une information de contact, hNews pour les actualités, hProduct pour les produits, etc.
Là aussi l’adoption est limitée à des usages spécifiques, comme les sites de recette de cuisine ou de programme de cinéma.

L’initiative des géants du Web

Les géants du Web ont pris le problème du Web sémantique dans un autre sens, privilégiant le pragmatisme sur la normalisation internationale. Ils se sont focalisés sur des besoins précis et on utilisé leur position dominante pour imposer leurs propositions.

Un exemple intéressant celui de Facebook avec son OpenGraph : cette norme permet de parcourir le réseau d’un utilisateur Facebook et de décrire des objets qui font sens dans le cas d’un réseau social : film, livre, recette de cuisine, etc. Elle permet aussi de créer des verbes et des phrases de type : X aime tel livre, Y aime tel auteur, etc. L’OpenGraph est utilisé par les entreprises qui veulent bénéficier des données utilisateurs de Facebook.
Il existe un projet similaire à celui de Facebook, le HealthGraph de RunKeeper. RunKeeper est un site qui permet de suivre ses activités sportives grâce à des capteurs. L’objectif du HealthGraph est de décrire et partager les activités sportives des utilisateurs du service.

De son côté, Google utilise depuis peu le Knowledge Graph : il permet de créer des liens entre des oeuvres, des artistes, des célébrités, des lieux, etc. et d’afficher des fiches explicatives en remplacement des résultats de recherche. Il semble que les liens entre objets aient été créés à partir de diverses sources comme Wikipedia ou Freebase. Il utilisent aussi le principe du PageRank (la pertinence d’une page est estimée selon le nombre de liens qui pointent vers elle).
Wolfram Alpha est un projet ambitieux plus avancé que celui de Google sur certains aspects. Par exemple, en tapant “Births Japan” on obtient le nombre de naissances par an au Japon avec des compléments d’information démographiques.

Les projets de Google et Facebook sont très prometteurs sur le plan sémantique. Celui de Google est proche du projet du W3C et opérationnel, quoique propriétaire. Celui de Facebook est intéressant en terme sociologique (qui s’intéresse à quoi ?), mais il est lui aussi propriétaire. Espérons que ces initiatives relanceront un projet de Web sémantique ouvert, mais simple : cela pourrait bien être le cas avec la norme HTML5 qui doit intégrer RDFa 1.1 (un sous ensemble de RDF) ainsi que les micro-formats.