vendredi 19 septembre 2014

Des millions d’images provenant de livres numérisés disponibles et libres de droit


Kalev Leetaru, universitaire de Georgetown à Washington DC (USA)  a trouvé le moyen informatique d’extraire des millions d’images, de cartes, de croquis, de photographies et d’illustrations publiées dans des livres anciens.

Ces images libres de droit sont issues de plus de 600 millions de pages de livres numérisés par l'organisation Internet Archive.
Après avoir fait le constat que l'effort de numérisation des bibliothèques s'était surtout concentré sur les mots et que les illustrations, gravures et photographies avaient été ignorées, K. Leetaru a voulu focaliser ses recherches sur les premières. 

2.6 millions d’illustrations déjà sur Flickr


Pour le chercheur, si nous ne pouvons pas consulter ces contenus, ni les indexer, les rechercher et les trouver sur une base de données, nous risquons de les perdre. Il explique : « Pendant toutes ces années, toutes les bibliothèques ont numérisé leurs livres, mais elles ont utilisé des PDF ou des fichiers qui se basent sur la recherche de mots, pas sur les images. Elles ont considéré que les livres étaient seulement une collection de mots. Mon projet est inverse, il est centré sur l’image ».



Pour numériser ces millions de pages, comme beaucoup d'autres bibliothèques, Internet Archive a utilisé l’OCR : un programme de reconnaissance optique permettant de convertir les images des mots scannées en des mots qui puissent être recherchés, par exemple, dans un moteur de recherche.
Ce processus reconnaît une image lorsqu'elle est au milieu d'une page et la rejette. 
Le logiciel inventé par  Kalev Leetaru fait le contraire. Il extrait chaque illustration pour la convertir au format Jpg, la nomme, l'indexe et y ajoute plusieurs métadonnées comme le nom de l’éditeur, la date de publication ou la provenance de l’image.
Ainsi, 2.6 millions d’images sont désormais disponibles sur Flickr gratuitement. La période couverte par ces extractions va de l’an 1500 à 1922. 

K. Leetaru propose aussi de mettre son logiciel à la disposition des bibliothèques.

Cette collection a donc vocation à s’agrandir. A l'avenir, ce sont 14 millions d’images qui devraient au total être extraites de 2 millions de livres.
Pour découvrir ces trésors de la culture internationale, cliquez ici 

Source : BBC News