vendredi 28 septembre 2012

Web sémantique, Open Data et bibliothèques : l’exemple de data.bnf.fr

Les catalogues de bibliothèque sont des instruments de recherche précis et parfois complexes, en tout cas toujours neutres : ils reprennent des informations factuelles et la censure n’y est pas pratiquée. Le Web les bouscule, du moins dans leur forme traditionnelle. En ligne, les catalogues ne sont pas seulement des outils de gestion et de localisation, mais aussi des outils de référence, pouvant servir à établir une bibliographie, à vérifier une information, ou à se procurer un document numérisé.
Dans le projet data.bnf.fr, lancé en 2011 , la Bibliothèque nationale de France organise la rencontre entre les données de ses catalogues et deux secteurs innovants : le Web sémantique et l’« Open Data ».
Deux secteurs qui dès les années 2000 ont été perçus comme un seul ensemble : pour désigner la publication de données dans le « nuage » du Web sémantique, on parle de « données ouvertes reliées » (Linked Open Data).
Les catalogues de bibliothèques ont justement besoin d’ouverture et de liens. Ils sont composés de données structurées, conçues pour être utilisées dans des programmes informatiques, mais fonctionnent comme des « silos », mis en place avant le développement des standards du Web. Or, les techniques du « Web sémantique » permettent de traiter des informations structurées pour les exploiter dans des programmes automatiques. Pour data.bnf.fr, elles permettent de regrouper des informations provenant des différents catalogues. On pourra par exemple retrouver les différentes œuvres de Voltaire, les éditions du Cid, ou les ouvrages sur l’escrime.
Ce projet utilise en particulier le catalogue général, la base BnF Archives et Manuscrits, et la bibliothèque numérique Gallica. Il s’agit de fournir des fiches sur les auteurs, les œuvres et les thèmes, en regroupant automatiquement les différentes informations. A partir des données structurées des catalogues, on pourra retrouver les différentes représentations d’Hamlet, les événements de la vie littéraire de 1515, ou des photographies de lancer du poids.
A l’heure actuelle, le corpus choisi reflète les auteurs les plus représentés : ceux pour lesquels il existe le plus de documents. Cela permet de générer automatiquement l’ensemble des pages, en s’appuyant sur le travail réalisé par les professionnels du catalogage. En septembre 2012, 3,6 millions de documents sont présents, avec 17 000 auteurs, et il est prévu d’étendre progressivement ce corpus.
Par ailleurs, les informations des catalogues sont produites par des services administratifs, et sont diffusées dans le cadre des missions de diffusion des documents « à distance en utilisant les technologies les plus modernes de transmission des données ». La BnF fait le choix d’expérimenter, en permettant de réutiliser ces données librement à condition de citer la source.
Pour la BnF, la diffusion et la qualité de la structuration sont complémentaires : juridiquement les données sont ouvertes et signalées sur data.gouv.fr , le portail des données publiques de l’Etat ; techniquement, elles sont disponibles en RDF selon les standards du Web sémantique.