Nuage de mots-clés

Le nuage de mots-clés (ou tags cloud) s’est imposé comme mode de visualisation des contenus d’un site Web, soit à partir des mots utilisés dans le site, soit à partir des mots-clés déterminés par les auteurs du site ou encore à partir des termes utilisés dans le moteur de recherche. Il met en évidence les termes les plus courants grâce à un agrandissement proportionnel à leur incidence. Ce mode de visualisation a été popularisé notamment par des sites comme Flickr. Le nuage de mots-clés permet de prendre connaissance du contenu d’un site en un clin d’oeil, de voir les thèmes principaux abordés et aussi d’accéder aux pages où se trouvent les mots en question.

Tags clouds

De nombreuses applications de publication sur Internet, comme les blogs, offrent cette fonctionnalité. Certains sites offrent également la possibilité de générer des nuages de mots et de les intégrer. Le nuage ci-dessus a été créé à partir du site http://web.mozbot.info/. Il s’agit cependant d’une copie d’écran, car WordPress ne reprend pas le code correctement. Ce site offre la possibilité de paramétriser le nuage de mots-clés, en choisissant les termes que l’on souhaite montrer dans une liste exhaustive, les couleurs, le nombre d’occurence minimale. Il est aussi de générer des expressions (comme “musée virtuel”) Ce qui manque en revanche, c’est d’associer les termes correspondant à une même entrée dans le dictionnaire: virtuel, virtuelle, virtuels, virtuelles apparaissent séparément. De plus, d’après les tests effectués, seule une page est prise en compte.

Faire une bibliographie en un clic

On parle beaucoup du Web sémantique. Ce concept reste néanmoins théorique aux yeux des non-spécialistes. Depuis peu, cependant, il est possible d’en trouver des applications qui, faute d’être parfaites, ont le mérite de nous montrer tout l’intérêt d’un web qui comporte des méta-données, c’est-à-dire des informations à propos des informations qu’on y trouve. Si l’on indique, par exemple, que les caractères “Jean Dupont” désignent un nom de personne, cela permettrait de retrouver plus facilement des personnes.

Depuis peu, un outil permettant le traitement et l’indexation des données est disponible librement. Il s’agit d’Opencalais, une technologie rachetée par Reuters et mise à disposition de tous gratuitement. Plusieurs applications sont désormais accessibles au public.

Parmi ces applications, l’une va permettre à l’utilisateur de réunir une liste d’ouvrages disponibles dans Amazon à partir d’un sujet décrit dans Wikipédia. Notons d’emblée que cela n’est possible que parce que les trois systèmes impliqués (Amazon, Wikipédia et Opencalais) sont ouverts aux développeurs qui souhaitent les intégrer à leurs applications.

Web sémantique: exemple

Que fait le système en question? Quand on entre un terme, il recherche la notice dans Wikipédia et l’analyse. Il en tire une liste des termes essentiels. Il va ensuite dans Amazon pour rechercher les mots-clés correspondant et, s’il y a en a, les ouvrages qui traitent du sujet. En un seul clic, on parvient à obtenir une liste de livres disponibles sur un thème, simplement en exploitant des données déjà existantes.

Bien entendu, le résultat n’est pas encore parfait et les sources de l’imperfection peuvent provenir des trois systèmes. Les articles de Wikipédia sont de qualité inégale et pas toujours bien structurés. Amazon est une librairie en ligne et non pas un outil bibliographique. En ce qui concerne l’outil d’analyse, il génère une liste de termes-clés au moyen d’un algorithme. Dans le domaine du Web sémantique (on l’a déjà vu avec les images), il y a deux options: automatisation via des programmes ou recours à l’intelligence humaine via le crowdsourcing. Les deux méthodes ont leurs avantages et désavantages. Cependant la masse des données déjà disponibles sur Internet rend presque indispensable l’utilisation de programmes d’analyse des données.

http://kapustar.punkt.at/labs/knowledgelounge.org/