Catégories
Applications géographiques Communautés virtuelles Général Mobiles Moteurs de recherche réseaux sociaux Tendances Usages Web sémantique

Internet dans un petit appareil

C’est toujours un peu dangereux de jouer les Madame Soleil en essayant de deviner les tendances de développement d’Internet pour les années à venir. Mais pourquoi pas? Cela donne en tout cas l’occasion de faire le point sur les développements marquant de 2009.

Le téléphone portable est en train de devenir le mode d’accès le plus important à Internet

Les statistiques montrent que le téléphone portable est devenu l’outil de communication le plus diffusé. L’Union Internationale des Télécommunications estime qu’à la fin de 2009, il y 4,6 milliards de souscriptions à un service de téléphonie mobile. Bien entendu, les téléphones portables permettant l’accès à Internet ne sont pas majoritaires: actuellement, le taux de pénétration est de 9,5 téléphones portables avec accès à Internet pour 100 habitants.

http://www.itu.int/ITU-D/ict/material/Telecom09_flyer.pdf

Le téléphone portable présente de nombreux avantages: léger, multi-fonctionnel, personnel (en Occident en tout cas), bénéfiant d’une large couverture réseau, bon marché à l’achat (moins à l’usage). La génération des smartphones en a fait un appareil permettant l’accès à Internet, un accès qui ne se limite pas à la consultation, mais aussi à l’écriture et à la participation aux réseaux sociaux. De fait, le téléphone est devenu un média en soi, avec ses propres modèles éditoriaux et ses règles de fonctionnement. Brièveté, fugacité et alertes. De plus en plus de sites ont une version pour téléphones mobiles. De nombreux producteurs d’information prennent en compte ce canal. L’information via le téléphone est aussi très liée à la localisation, ce qui redonne un nouveau souffle au concept de réalité augmentée. Finis les sacs à dos et les lunettes 3D, qui sont restés à l’état de prototype. Il suffit de sortir son téléphone pour en savoir plus sur le lieu où on se trouve … à condition d’avoir la bonne application. Le foisonnement des applications, c’est sûrement la maladie d’enfance des téléphones. Mais on a aussi connu ça sur les PC. La nature de l’information disponible grâce au téléphone peut se résumer avec la locution latine “hic et nunc” qui signifie ici et maintenant.

Les réseaux sociaux vont arriver dans leur phase de maturité

Il est probable que les réseaux sociaux vont arriver dans une phase de maturité dans laquelle les usages pourront se fixer. On a connu ce phénomène avec les blogs. Après une phase inflationniste où chacun a créé son blog pour dire tout et rien, le blog a trouvé sa vitesse de croisière. Il est maintenant bien intégré dans l’arsenal des communicateurs et prend une place toujours plus grande dans le paysage informationnel où il remplace souvent les listes de communiqué de presse. Des sites comme celui de la Maison Blanche ou du 10 Downing Street ressemblent maintenant à des blogs. Une firme comme Google en a fait son principal outil de communication. Les blogs actuels n’offrent pas nécessairement la possibilité de commenter. Ils constituent un nouveau format, plus accessible au grand public.

Pour l’instant, les réseaux sociaux sont encore dans la phase où tout le monde veut s’y mettre et personne ne sait comment les utiliser. Il y a beaucoup d’essais, d’expérimentations. La situation devrait se décanter peu à peu et ces instruments trouveront leur place. Mais ce ne sera peut-être pas encore pour 2010.

L’avenir de la presse est à construire

La presse va encore subir de profonds changements. Internet a certainement joué un rôle de catalyseur dans la crise de la presse, mais ses véritables causes sont peut-être ailleurs. L’information a été dénaturée parce qu’on en a fait un produit dont on pensait qu’on pouvait le vendre comme des boîtes de conserve. C’est vrai pour l’actualité comme pour l’information culturelle. Les contenus des journaux sont devenus du easy reading: pages people et conseils d’achats, témoignages et tests psychologiques remplacent allègrement le reportage d’un journaliste d’investigation ou les critiques sur le monde de l’art. Dans le domaine de l’édition, on fait de même en tablant essentiellement sur des bestsellers. Tout cela a fait le jeu de la concurrence présente sur Internet: blogosphère, journalisme citoyen, encyclopédie collaborative. Cela d’autant plus facilement que les contributeurs sur Internet on érigé la gratuité en dogme fondamental. De fait, l’avenir du journalisme et de ses règles déontologiques nécessaires est encore difficile à percevoir. Actuellement les formes hybrides comme le Post.fr ou Rue89 sont en vogue. Elles allient vitesse de réaction, collaboration et vérification professionnelle des informations.

http://www.rue89.com/

http://www.lepost.fr/

Certains tablent aussi sur le retour du journaliste, qui (re)deviendrait sa propre marque (comme Henry Morton Stanley ou Albert Londres, sans parler des modèles imaginaires comme Tintin). On retournerait au temps des grandes plumes. Les journalistes auraient leur propre blog, écriraient des articles pour d’autres titres et des livres.

http://bruxelles.blogs.liberation.fr/coulisses/2009/09/mon-avenir-estil-de-devenir-une-marque-.html

Une autre hypothèse serait la création de plateformes comparables à iTunes où les utilisateurs pourrait télécharger des articles contre des sommes minimes ou un abonnement. Le micro-payement constituerait (peut-être) une solution au problème lancinant du financement de la presse.

http://www.journalismonline.com/

Good enough revolution

C’est peut-être l’une des tendances qui est apparue au grand jour cette année, même si elle existait sur Internet depuis longtemps. La thèse principale de cet article de la revue Wired est la suivante: les utilisateurs ne recherchent pas les meilleures solutions, mais se contentent de ce qui marche. Ils téléphonent avec Skype, même si le son n’est pas optimal. Ils regardent des vidéos sur You Tube et vont moins au cinéma (mais ils iront peut-être pour Avatar). Ils achètent des Netbooks. Bref, le porte-monnaie est peut-être devenu le critère fondamental de choix, tant que le résultat est là.

http://www.wired.com/gadgets/miscellaneous/magazine/17-09/ff_goodenough

Le web sémantique

Cette année est apparu Wolfram Alpha. Ce moteur de recherche a popularisé une fonctionnalité que l’on trouvait déjà sur quelques sites: un moteur de recherche qui répond directement aux questions, sans donner une liste de liens qu’il faut encore ouvrir les uns après les autres. Désormais ce n’est plus à l’utilisateur de rechercher lui-même des réponses à ses questions. Les nouvelles générations de moteur de recherche devront les lui fournir. Pour cela, ils devront exploiter les données et les métadonnées présentes sur Internet. Ils devront aussi comprendre le langage de l’utilisateur. Ils devront aussi lui donner des réponses contextuelles, liées à sa position géographique par exemple. L’utilisateur aura accès directement aux informations nécessaires là où il est, quand il en a besoin.

http://www.wolframalpha.com/

En conclusion …

Boule de cristal

Dans le futur, j’accèderai à Internet grâce à un petit appareil de rien du tout dans ma poche. Il me coûtera un peu d’argent, chaque mois ou à chaque transaction. Quand j’aurai besoin d’une information (et même si je ne la demande pas), elle me parviendra en tenant compte du contexte. Quand j’arriverai à la gare, mon petit appareil me signalera des grèves. Si je prends l’avion pour un pays lointain, il m’informera d’un coup d’état. Quand je ferai les magasins, il me dira si le prix indiqué est trop élevé. Si je suis d’accord, il règlera lui-même la note. Quand je passerai devant la maison natale d’un grand homme, il me donnera sa biographie. Il me dira même qu’un de mes potes se promène dans les alentours.

Mais ce petit appareil ne sonnera pas quand passera devant moi l’homme de ma vie ou si ma voisine fait un malaise. Il me dira peut-être des choses stupides, comme de faire demi-tour dans un tunnel. Il ne remplacera pas mes amis. Il me donnera le nom d’un peintre devant un tableau, mais il ne saura pas me dire pourquoi cette peinture est belle. Avec lui, je me sentirai seule.

Bonne année 2010

Catégories
Bibliothèque virtuelle Communautés virtuelles Culture Hypermonde Moteurs de recherche Web sémantique

Cerveau et ordinateur

Internet contient maintenant des milliards de documents: pages HTML, images, fichiers de texte, sons, vidéos, etc. Les moteurs de recherche permettent d’indexer cette masse. Cependant il est difficile d’ordonner les différents résultats afin que l’utilisateur soit satisfait de la réponse. Google utilise par exemple le critère des liens entrants: plus une page est liée, plus elle apparaîtra haut dans la liste. C’est pourquoi nous avons souvent l’impression de tomber sur le bon site en faisait une recherche dans Google: ce sont les sites les plus populaires qui viennent en premier. Mais qu’en est-il de tous les fichiers qui composent les sites Web. Prenons une personne qui recherche une image de pommier. Il en existe des centaines de milliers. Mais comment offrir les images les plus intéressantes dans la première page de résultats? Flickr gère plus de trois milliards d’images, ce qui rend le tri assez ardu. Son équipe de développement s’est penchée sur la question et elle y a répondu par le concept d’interestingness. On relève les traces d’activités autour de l’image: clic, choix comme favori, commentaires, etc. Grâce à cela, on arrive à mettre en évidence des images intéressantes. Le résultat est rarement décevant:

http://www.flickr.com/explore/interesting/

http://www.flickr.com/explore/interesting/2009/10/

Pour obtenir ce résultat, on n’a pas seulement eu recours à l’ordinateur. On a aussi utilisé l’activité humaine. En effet, un ordinateur, si puissant soit-il, ne peut déterminer ce qui est beau ou intéressant.

Luis von Ahn, chercheur à la Carnegie Mellon University, se penche sur cette question depuis des années. Il est persuadé par l’idée que les ordinateurs sont limités et qu’ils ne pourront jamais effectuer certaines tâches qui sont simples pour le cerveau humain. C’est lui qui a lancé le fameux ESP game, qui permettait d’attribuer des mots-clés à des images. Deux partenaires, mis ensemble par hasard, doivent attribuer des mots-clés (ou tags) à des images. Si les mots-clés des deux joueurs correspondent, des points sont attribués à chacun. Les joueurs cumulent les points de toutes les parties qu’ils jouent: à celui qui en obtient le plus. Attention, le jeu est plus addictif qu’il en a l’air. Google a repris ce jeu et l’a intégré à Google Images sous la forme du Google Image Labeler:

http://images.google.com/imagelabeler/

Luis von Ahn a continué de développer ses idées à travers d’autres jeux. On les trouve tous maintenant sur un site intitulé GWAP: games with a purpose.

Gwap

http://www.gwap.com/

Il s’agit de véritables jeux où les participants accumulent des scores: les points glanés dans les différents jeux s’additionnent. Le but de ces jeux est d’ajouter aux documents soumis différentes métadonnées. On retrouve donc l’ESP Game. Avec Tag a Tune, les deux joueurs écoutent un morceau de musique qu’ils doivent caractériser. En lisant les mots-clés de l’autre, chaque joueur doit essayer de deviner si tous deux écoutent le même morceau. Le but est donc d’attribuer des tags à des morceaux de musique. Verbosity offre tour à tour à chacun des joueur un terme: l’un doit le caractériser, tandis que l’autre le devine. Visiblement, il s’agit d’établir des associations de termes. Avec Squigl, chacun des partenaire doit entourer ce qui correspond à un terme donné sur une image: le jeu indique “ours” et le joueur doit entourer l’endroit où il voit un ours sur l’image. Enfin Matchin (le plus addictif selon moi) présente à deux partenaires deux images: chacun doit indiquer celle qui lui plaît le plus. Si les deux joueurs choisissent la même image, ils reçoivent des points. S’ils optent pour la même photo plusieurs fois de suite, le nombre de point obtenus par tour augmentent. Le but de ce jeu est de mettre en avant les images de bonne qualité et d’écarter celles qui sont moins belles (comme les photos prises en fin de soirée et postées sur Facebook). On retrouve l’interestingness de Flickr.

Gwap

Non seulement ces jeux sont utiles, car ils permettent d’indexer des masses énormes de documents, mais ils sont aussi basés sur la collaboration plutôt que sur l’opposition. A l’heure des jeux de type “Kill them all”, cela vaut la peine d’être mentionné.

Le site GWAP prétend aussi qu’il peut deviner votre genre avec 10 paires d’images où il faut dire celle que l’on aime le mieux. Mais ça ne marche pas à tous les coups.

Luis von Ahn est aussi le créateur du Captcha, ce système anti-spam bien connu, évitant aux robots de placer des commentaires sur les blogs ou d’envoyer des messages par formulaire Web. Il l’a conçu dans le même esprit d’utilité et de contribution du cerveau humain à des projets informatiques. Le Captcha soumet deux images représentant des termes écrits que l’utilisateur doit retranscrire. Ces deux termes proviennent de la numérisation de livres ou de journaux. L’un des deux termes a été reconnu correctement par le programme de reconnaissance de caractères (OCR), alors que l’autre a été mal lu (le logiciel d’OCR étant capable de reconnaître ses erreurs). L’utilisateur ignore lequel des deux mots est correcte. S’il transcrit correctement le terme qui a été lu de manière juste par l’ordinateur, le système part de l’idée que le second est aussi juste. Les couples de terme sont soumis plusieurs fois et si on obtient toujours le même résultat, la lecture “humaine” est validée. Ce système est utilisé pour améliorer la numérisation d’ouvrages qui sont intégrés aux Internet Archives. Le nombre de transactions quotidiennes passant par le Captcha étant de 200 millions, l’amélioration de la numérisation est donc réelle.

Captcha

http://recaptcha.net/

Internet Archives

Page de Luis von Ahn sur le site de la Carnegie Mellon University

A travers ces exemples remarquables, comme dans les réseaux sociaux, on sent l’imbrication de plus en plus grande entre cerveau électronique et cerveau biologique. Chacun de ces cerveaux a ses propres limites: les puces ont des puissances de calcul qui dépassent largement tout ce que nos neurones peuvent faire, mais elles ne peuvent exécuter que les tâches qui ont été programmées. Le cerveau humain a des compétences que jamais un ordinateur n’aura: imagination, conscience. En revanche, il peut utiliser les machines pour augmenter certaines fonctions: on songe en premier lieu à la mémoire.

Cette proximité toujours plus grande entre l’homme et la machine doit nous faire un peu réfléchir. Il devrait toujours revenir à l’homme de déterminer le partage des tâches. Et cela passe par une connaissance du fonctionnement d’un ordinateur auquel on a tendance à accorder trop d’intelligence et donc le développement, à large échelle, d’une culture informatique à ne pas confondre avec des compétences dans l’utilisation de l’informatique.

Catégories
Moteur de recherche Usages Web sémantique

Des photos qu’on peut utiliser … enfin

De nombreuses personnes, notamment des blogueurs, utilisent des moteurs de recherche d’images pour trouver des illustrations. Mais c’est très frustrant de trouver de belles images et de ne pas pouvoir les utiliser (ou de ne pas être sûr de pouvoir). Google vient d’ajouter une nouvelle fonctionnalité à son moteur de recherche d’images qui peut s’avérer très utile. Dans les recherches avancées, on peut désormais filtrer des images selon le type de licence:

  • sans tenir compte des licences
  • réutilisation autorisée
  • réutilisation à des fins commerciales autorisée
  • réutilisation avec modification autorisée
  • réutilisation avec modification à des fins commerciales autorisée

Le moteur recherche les images qui sont indexées selon les licences Creative Commons, qui sont sous licence GNU ou dans le domaine public. Bien entendu, il faut tout de même vérifier si la licence est correcte quand on veut utiliser l’image. Mais au moins, on évite de se retrouver devant des images tentantes, mais qu’on a pas le droit d’utiliser.

Google Search
http://images.google.ch/advanced_image_search?hl=fr

Catégories
Général Mobiles Tendances Web sémantique

Recherche: un changement de paradigme

Les premiers moteurs de recherche n’avaient qu’un seul but: permettre de trouver des sites Internet où l’on pouvait trouver des informations intéressantes. Ces applications ont rapidement détrôné les annuaires du Web dont Yahoo était l’exemple le plus célèbre. Google est également parti de cette conception, puisque son algorithme se concentrait essentiellement sur les contenus des sites et les liens des différents sites entre eux.

Le récent lancement de Wolfram Alpha, du nouveau moteur de recherche de Microsoft, Bing, et de quelques innovations sur Google indiquent cependant un changement de paradigme assez profond dans le domaine de la recherche.

Sur Wolfram Alpha, il devient possible de poser une question en langage naturel. L’algorithme analyse la question et y répond, au lieu de renvoyer à des liens vers des sites sur lesquels l’internaute devra trouver sa réponse. Ainsi, si l’on demande à Wolfram Alpha: “how many people in Switzerland?”, le système donne le nombre d’habitants en Suisse et même un graphique indiquant l’évolution de la population.

Wolfram Alpha

http://www.wolframalpha.com/

Bien entendu, Wolfram Alpha n’a pas encore réponse à tout. Il ne comprend que l’anglais et ne connaît pas grand chose au sport. Cependant le succès des premiers jours (près de 100 millions de requêtes en une semaine) indique bien qu’il correspond à l’attente des internautes. Ces derniers veulent des réponses et non des pistes de recherche. En fait, ce type de moteur de recherche existe déjà, limité à des domaines spécifiques. L’ambition de Wolfram (auteur de l’ouvrage “A new kind of science”) est de l’étendre au Web.

Microsoft présente son nouveau moteur de recherche comme une aide à la décision. Cette application permet d’effectuer des recherches dans les pages Web, les images, les vidéos, l’actualité, des cartes. Outre le résultat sous forme de liens, elle montre des termes de recherche associés. L’aide à la décision se fait peut-être dans le domaine des propositions d’achat ou les données touristiques. La recherche peut aussi s’effectuer dans les cartes.

Bing

Bing

http://www.bing.com

Google n’est pas en reste. A côté des résultats, on trouve maintenant un lien intitulé “Show options”. Parmi ces options, une “wonderwheel” (roue magique) donne, sous forme visuelle les concepts associés au terme de recherche. Quant au timeline, il présente l’information recherchée sous la forme d’une frise chronologique l’information recherchée.

Google options

http://www.google.com

Internet constitue la plus formidable masse de connaissances jamais rassemblée dans l’histoire de l’humanité. Il s’enrichit chaque jour des données les plus diverses, y compris celles qui concernent les individus dans les réseaux sociaux. Se borner à aiguiller les gens à travers ce dédale devient risible. Il est temps maintenant d’exploiter le contenu d’Internet comme une base de connaissances. C’est le rêve du Web sémantique. Ce dernier ne semble pas forcément se réaliser comme l’avaient pensé ses concepteurs, mais il est en marche.

Si on ajoute à cette évolution dans le domaine de la recherche, la multiplication des appareils mobiles permettant d’accéder aux ressources d’Internet, on peut imaginer que nous serons en permanence connectés à cette masse de connaissance. Toute question trouvera immédiatement une réponse, où que l’on soit: à quelle heure part mon avion? Où ai-je laissé ma voiture? Qui parmi mes amis se trouvent dans les environs? Qui est Picasso? Que s’est-il passé à cet endroit depuis deux siècles? Que dit la loi? Qui a gagné ce match de tennis? Il suffira d’entrer quelques mots dans son téléphone pour le savoir. Bientôt nous saurons nager dans la mer des connaissances …

Catégories
Applications géographiques Culture Musée virtuel muséographie virtuelle Web sémantique

Différentes facettes

L’expression anglaise “faceted browsing” s’applique à une technique permeetant d’accéder à une collection d’informations selon différents filtres. Chaque objet de la collection se voit attribuer différentes catégories. Ces catégories sont à la base des filtres de recherche.

Un site qui vient de naître et qui présente les différents musées de Suisse romande comme autant de buts de promenade illustre cette technique du faceted browsing: Musardage.

Musardage

Musardage (http://www.musardage.ch)

Ce site contient une liste des expositions actuellement ouvertes en Suisse romande. Mais cette liste peut être lue de différentes manières: comme un tableau, comme une liste illustrée par les miniatures des affiches, comme une frise chronologique ou comme une carte de géographie. De plus, il est possible de filtrer l’ensemble des expositions selon des sujets, le canton ou la localité.

Musardage

Frise chronologique

Musardage

Carte de géographie

Dans la même veine et par le même auteur, on peut aussi parcourir une liste des empereurs romains.

Empereurs romains

Liste des empereurs romains

Catégories
Musée virtuel muséographie virtuelle Tendances Usages Web sémantique

Les multiples facettes de la réalité

Aujourd’hui, en faisant mes courses dans les rayons d’une enseigne connue, je me suis mise à la recherche d’allumettes. Spontanément, je me suis rendue au rayon des bougies en pensant que les allumettes ne devraient pas en être éloignées. Mais je n’en ai pas vues. Le rayon des caquelons à fondue étant juste à côté, j’y ai jeté un oeil, sans succès. Je me suis donc résignée à demander l’aide d’une vendeuse. Cette dernière m’a entraînée vers le rayon des … piles électriques. C’est là que se trouvaient les boîtes d’allumettes.

Je me suis donc demandée quelle était la caractéristique commune des piles électriques et des allumettes. L’énergie … pardi! Historiquement, les plaques électriques ont remplacé la cuisinière à bois et les torches électriques ont succédé aux chandelles.

Allumettes

Image: fedecomite

En passant, j’ai remarqué que les boîtes d’allumettes que j’avais mises dans mon panier étaient ornées d’images de sites archéologiques fameux. Encore un exemple de muséographie nomade non exploitée …

Revenons cependant à notre quête d’allumettes. Nous avons procédé par association d’idées en reliant l’allumette à ce qu’elle peut allumer, plutôt qu’à sa fonction générique de source d’énergie. Autant de clients dans un magasin, autant d’associations différentes. Les supermarchés ont tendance à séparer les produits, plutôt que de les associer selon leur usage. Il faut dire que l’espace-temps est une dimension difficile à gérer et qu’un objet ne peut pas être à deux endroits en même temps. C’est justement la grande différence entre le monde que nous connaissons dans notre expérience quotidienne et le monde numérique où l’ubiquité est possible.

La navigation des sites Internet peut se montrer aussi contraignante que l’organisation des rayons d’un supermarché. Il lui ajouter aux objets numériques des méta-données, c’est-à-dire des informations qui les décrivent, pour en augmenter le dynamisme. Les produits que l’on trouve dans les magasins comportent de nombreuses informations, comme le prix, la composition, le mode d’emploi. Mais ces informations sont directement imprimées sur l’emballage ou sur une étiquette. Il faut avoir le produit en main pour les lire (et souvent de bonnes lunettes ainsi qu’un diplôme de chimiste). Il en va tout autrement dans le monde numérique où ces informations sont exploitables grâce à un moteur de recherche ou à tout autre programme. Il est possible de les utiliser pour construire la navigation des sites et donner des accès différents dans une même masse d’informations. On appelle cela le faceting browsing. Dans une librairie en ligne, on peut chercher les articles selon divers critères: auteur, genre littéraire, éditeurs, etc… On peut ensuite trier les listes de résultats selon la date de parution ou le prix. Cela donne au consommateur plus de possibilités de trouver ce qu’il cherche et de tirer parti de ses propres associations d’idées.

Ne rencontre-t-on pas le même problème dans l’organisation des musées? Les tableaux, les sculptures, les objets ne peuvent se trouver qu’en un seul endroit. Le conservateur doit donc décider du meilleur endroit pour les pièces de ses collections. Mais dans des domaines aussi subjectifs que l’art, les logiques deviennent très personnelles. Faut-il adopter une logique chronologique, géographiques? Faut-il mettre les oeuvres d’un même peintre dans une salle ou privilégier une approche thématique? Certes, les expositions peuvent remédier temporairement à la situation. Mais globalement les visiteurs partagent tous la même vue des collections. C’est donc l’un des avantages des musées virtuels sur Internet. Ils sont nommés virtuels justement parce que chaque visiteur va générer une vue de la collection qui lui est propre. Les musées virtuels présentent le grand avantage de permettre autant de visites que de visiteurs et de laisser ces derniers découvrir des oeuvres selon leurs intérêts personnels.

L’indexation des contenus est une des clés de l’évolution future d’Internet. On la trouve finalement dans tous les domaines novateurs, à commencer par les réseaux sociaux dans lesquels les individus s’indexent eux-mêmes. Grâce à cette indexation, le visiteur ou l’utilisateur a beaucoup de flexibilité dans l’exploitation de collections, qu’il s’agisse de produits, de pièces de musées ou de personnes. C’est l’émergence du Web sémantique qui se prépare.

Catégories
Tendances Web sémantique

Un dictionnaire virtuel

Google offre une fonctionnalité intéressante. En saisissant « define: » avant le terme recherché, on obtient non pas une liste de liens, mais une série de définitions glanées sur le Web.

Champ de recherche Google

Les résultats obtenus sont loin d’être parfaits. Cependant cette possibilité fait réfléchir. La masse immense de données que constitue Google peut être exploitée de diverses manières et produire autre chose que des passages vers d’autres sites. Le moteur de recherche essaye de retrouver tout ce qui peut constituer une définition et générer un dictionnaire. Si on y réfléchit un peu, ce dictionnaire se trouve déjà potentiellement dans Google et il s’agit de l’actualiser.

Une question fondamentale demeure: peut-on imaginer qu’un dictionnaire censé livrer le sens des mots d’un langage naturel soit généré uniquement grâce à un programme, sans l’aide des humains, porteurs du langage naturel? Le Web sémantique se fera-t-il avec des robots ou avec des hommes?

Catégories
Web sémantique

Nuage de mots-clés

Le nuage de mots-clés (ou tags cloud) s’est imposé comme mode de visualisation des contenus d’un site Web, soit à partir des mots utilisés dans le site, soit à partir des mots-clés déterminés par les auteurs du site ou encore à partir des termes utilisés dans le moteur de recherche. Il met en évidence les termes les plus courants grâce à un agrandissement proportionnel à leur incidence. Ce mode de visualisation a été popularisé notamment par des sites comme Flickr. Le nuage de mots-clés permet de prendre connaissance du contenu d’un site en un clin d’oeil, de voir les thèmes principaux abordés et aussi d’accéder aux pages où se trouvent les mots en question.

De nombreuses applications de publication sur Internet, comme les blogs, offrent cette fonctionnalité. Certains sites offrent également la possibilité de générer des nuages de mots et de les intégrer. Le nuage ci-dessus a été créé à partir du site http://web.mozbot.info/. Il s’agit cependant d’une copie d’écran, car WordPress ne reprend pas le code correctement. Ce site offre la possibilité de paramétriser le nuage de mots-clés, en choisissant les termes que l’on souhaite montrer dans une liste exhaustive, les couleurs, le nombre d’occurence minimale. Il est aussi de générer des expressions (comme “musée virtuel”) Ce qui manque en revanche, c’est d’associer les termes correspondant à une même entrée dans le dictionnaire: virtuel, virtuelle, virtuels, virtuelles apparaissent séparément. De plus, d’après les tests effectués, seule une page est prise en compte.

Catégories
Web sémantique

Faire une bibliographie en un clic

On parle beaucoup du Web sémantique. Ce concept reste néanmoins théorique aux yeux des non-spécialistes. Depuis peu, cependant, il est possible d’en trouver des applications qui, faute d’être parfaites, ont le mérite de nous montrer tout l’intérêt d’un web qui comporte des méta-données, c’est-à-dire des informations à propos des informations qu’on y trouve. Si l’on indique, par exemple, que les caractères “Jean Dupont” désignent un nom de personne, cela permettrait de retrouver plus facilement des personnes.

Depuis peu, un outil permettant le traitement et l’indexation des données est disponible librement. Il s’agit d’Opencalais, une technologie rachetée par Reuters et mise à disposition de tous gratuitement. Plusieurs applications sont désormais accessibles au public.

Parmi ces applications, l’une va permettre à l’utilisateur de réunir une liste d’ouvrages disponibles dans Amazon à partir d’un sujet décrit dans Wikipédia. Notons d’emblée que cela n’est possible que parce que les trois systèmes impliqués (Amazon, Wikipédia et Opencalais) sont ouverts aux développeurs qui souhaitent les intégrer à leurs applications.

Que fait le système en question? Quand on entre un terme, il recherche la notice dans Wikipédia et l’analyse. Il en tire une liste des termes essentiels. Il va ensuite dans Amazon pour rechercher les mots-clés correspondant et, s’il y a en a, les ouvrages qui traitent du sujet. En un seul clic, on parvient à obtenir une liste de livres disponibles sur un thème, simplement en exploitant des données déjà existantes.

Bien entendu, le résultat n’est pas encore parfait et les sources de l’imperfection peuvent provenir des trois systèmes. Les articles de Wikipédia sont de qualité inégale et pas toujours bien structurés. Amazon est une librairie en ligne et non pas un outil bibliographique. En ce qui concerne l’outil d’analyse, il génère une liste de termes-clés au moyen d’un algorithme. Dans le domaine du Web sémantique (on l’a déjà vu avec les images), il y a deux options: automatisation via des programmes ou recours à l’intelligence humaine via le crowdsourcing. Les deux méthodes ont leurs avantages et désavantages. Cependant la masse des données déjà disponibles sur Internet rend presque indispensable l’utilisation de programmes d’analyse des données.

http://kapustar.punkt.at/labs/knowledgelounge.org/