Emergence de l’idée d’une encyclopédie mondiale permanente

Depuis la fin du 19ème siècle, les connaissances avaient explosé dans le monde occidental. L’alphabétisation de la société, le développement de la recherche scientifique ainsi que des progrès techniques dans l’imprimerie ont généré une augmentation des publications sous les formes les plus diverses : livres, revues, journaux. Le besoin de classer ces informations et d’en faciliter l’accès se fit sentir. Dès les années 30, des réflexions sur un système universel des connaissances, une sorte de préfiguration du World Wide Web, ont commencé à émerger dans le milieu des spécialistes de la documentation. En voici deux exemples.

Paul Otlet (1868- 1944) est un visionnaire à la fois auteur, entrepreneur, juriste et activiste belge. Il crée en 1905, avec Henri Lafontaine, le système de « classification décimale universelle » (CDU) sur la base de la classification de Dewey, ainsi que le standard de 125 sur 75 mm imposé aux fiches bibliographiques, toujours en vigueur dans les bibliothèques du monde entier. Paul Otlet met en place de nombreuses initiatives, toujours dans le but de réunir le savoir universel. Il les regroupe dans le Palais Mondial-Mundaneum de Bruxelles. Le Mundaneum comportait seize salles didactiques, un répertoire bibliographique comprenant douze millions de fiches, un musée de la Presse avec 200 000 spécimens de journaux du monde entier. Il a été fermé en 1934 pour libérer de la place et les collections ont été déménagées à plusieurs reprises. Ces collections se trouvent actuellement à Mons, dans le nouveau Mundaneum. Paul Otlet publie en 1934 un ouvrage qui fait toujours autorité dans le domaine de la documentation : le “Traité de documentation”. Dans cet ouvrage qui fait toujours autorité aujourd’hui, il pose les bases de la documentation moderne. A la fin de l’ouvrage, il envisage la mise en place d’un réseau universel d’information et de documentation, constitué d’entités nationales et locales qui, si elles sont hiérarchiquement organisées, n’en sont pas moins invitées à collaborer entre elles[1]. Paul Otlet énumère également dans son traité ce qu’il considère comme les six étapes de la documentation. La sixième étape est celle de l’hyperdocumentation, correspondant au stade de l’hyperintelligence. Des documents correspondants aux divers sens (visuels, sonores, tactiles, etc.) sont enregistrés selon des technologies correspondantes et mêlés [2]. Enfin, déjà à cette époque, grâce à sa connaissance des progrès technologiques, Paul Otlet anticipe des possibilités de consulter des documents depuis chez soi :

« On peut imaginer le télescope électrique, permettant de lire de chez soi des livres exposés dans la salle teleg des grandes bibliothèques, aux pages demandées d’avance. Ce sera le livre téléphoté[3]»

Paul Otlet a posé les bases de la documentation moderne. Nombre de ses propositions sont encore utilisées aujourd’hui dans des bibliothèques du monde entier. Sa vision élargie de la documentation et sa connaissance des progrès techniques lui ont fait entrevoir ce qui constitue aujourd’hui Internet et notamment sa partie hypertextuelle, le WWW, non seulement dans ses aspects techniques, mais aussi organisationnel (réseau) et même philosophiques (hyperintelligence).

H. G. Wells (1866-1946) est un auteur britannique surtout connu pour ses romans de science fiction comme la Machine à explorer le temps (1895) ou la Guerre des mondes (1898). Il a aussi écrit des ouvrages de réflexions politiques et de vulgarisation scientifique. En 1937, il participe au Congrès Mondial de la Documentation Universelle[4]. En 1939, il publie dans l’Encyclopédie française[5] un texte intitulé « Rêverie sur un thème encyclopédique ». Dans ce texte, il relève que, malgré l’accroissement des connaissances, les encyclopédies sont toujours conçues comme celles du 18ème siècle. Cependant les technologies modernes comme la radio, la photo, les microfilms, permettent d’assembler une collection de faits et d’idées de manière plus complète, succincte et accessible. Il émet l’idée d’une encyclopédie permanente mondiale qui serait mis à jour par un grand nombre de personnes. Cette encyclopédie irait au-delà d’un simple répertoire. Elle serait également accessible partout:

And not simply an index; the direct reproduction of the thing itself can be summoned to any properly prepared spot[6].

H. G. Wells voit aussi dans cette encyclopédie le moyen de sauver la mémoire humaine : désormais son contenu serait copié et réparti, si bien qu’il serait préservé des destructions[7]. Enfin H. G. Wells considère qu’elle ne s’adresse pas seulement aux universitaires, mais également aux familles et aux grand public et qu’elle constituera un outil pour les enseignants. Il termine ce texte en soulignant qu’une telle initiative ouvrirait la voie à la paix du monde en réalisant l’unité des esprit

H. G. Wells, 1922
H. G. Wells en 1922

Paul Otlet participait lui aussi au Congrès Mondial de la Documentation Universelle. Nul doute que les idées des deux hommes sont très semblables. Pour eux, les nouvelles technologies ouvrent des perspectives nouvelles pour répondre au défi de l’augmentation des connaissances et pour les rendre facilement accessibles à chacun. L’organisation des connaissances doit être universelle, décentralisée et non limitée à un seul pays. Enfin tous deux voient un rapport entre cette mise à disposition des connaissances et l’avènement d’une ère nouvelle pour le monde où la paix règnerait grâce à un esprit humain unifié. Ils avaient entrevu les possibilités qu’Internet apporte aujourd’hui pour tous ceux qui souhaitent acquérir et mettre à disposition des connaissances. Le printemps arabe a aussi montré que l’accès facilité à des informations permet à des populations dans des régimes non démocratiques de prendre conscience de leur situation et de se soulever.

Bien avant qu’Internet ne connaisse un succès mondial, certaines personnes très en avance sur leur temps avaient exprimé les besoins auxquels le réseau mondial pourrait répondre.



[1] Otlet Paul, Traité de documentation, Bruxelles, Editions Mundaneum, 1934, p. 415 (point 424, 1) ; http://paul-otlet.mazag.net/wp-content/uploads/2012/06/otlet-4.pdf

[4] Paris 16-21 aout 1937

[5] Encyclopédie française. Tome 18, La civilisation écrite, dir. Par Julien Cain, Paris, 1939. Repris dans World Brain, 1938, sous le titre de “The Idea of a permanent World Encyclopedia”

[6] Brain World, p.121

[7] Id. p. 121

Curateur, l’avenir du Web

Tout le monde connaît Paper.li. Cette application fabrique un journal à partir des personnes que l’on suit dans Twitter. Le résultat est toujours intéressant. Néanmoins quand on lit une édition, il y a parfois des articles que l’on n’aurait pas repris. Il est possible de paramétriser Paper.li, mais pas jusqu’au niveau de l’article. Pour parvenir à monter soi-même son journal, il faut utiliser Scoop.it.

Scoop.it

Cette application permet de choisir dans une liste créée à partir de requêtes dans Google et dans diverses plateformes des articles que l’on souhaite mettre en ligne. On peut même modifier le texte ou changer l’image. Il est aussi possible de déplacer les articles sur la page. L’application permet la gestion des sources également: on peut déterminer les mots-clés à rechercher ainsi que les services et plateformes dans lesquels l’application va chercher des informations.

http:www.scoop.it

Par rapport à Paper.li, Scoop.it permet d’être véritablement un curateur. Les informations ne sont pas assemblées par un algorithme, mais par une personne. L’application aide dans deux tâches fastidieuses: la mise en page et la recherche d’information. Le reste, c’est un cerveau humain qui le fait. Le Web comporte tellement d’informations que des algorithmes seuls ne peuvent pas rendre ces informations plus accessible. Il faut – encore et toujours – faire appel à l’intelligence humaine. On peut devenir des curateurs de toute cette matière informe qui ne demande qu’à être canalisée.

 

Internet dans un petit appareil

C’est toujours un peu dangereux de jouer les Madame Soleil en essayant de deviner les tendances de développement d’Internet pour les années à venir. Mais pourquoi pas? Cela donne en tout cas l’occasion de faire le point sur les développements marquant de 2009.

Le téléphone portable est en train de devenir le mode d’accès le plus important à Internet

Les statistiques montrent que le téléphone portable est devenu l’outil de communication le plus diffusé. L’Union Internationale des Télécommunications estime qu’à la fin de 2009, il y 4,6 milliards de souscriptions à un service de téléphonie mobile. Bien entendu, les téléphones portables permettant l’accès à Internet ne sont pas majoritaires: actuellement, le taux de pénétration est de 9,5 téléphones portables avec accès à Internet pour 100 habitants.

http://www.itu.int/ITU-D/ict/material/Telecom09_flyer.pdf

Le téléphone portable présente de nombreux avantages: léger, multi-fonctionnel, personnel (en Occident en tout cas), bénéfiant d’une large couverture réseau, bon marché à l’achat (moins à l’usage). La génération des smartphones en a fait un appareil permettant l’accès à Internet, un accès qui ne se limite pas à la consultation, mais aussi à l’écriture et à la participation aux réseaux sociaux. De fait, le téléphone est devenu un média en soi, avec ses propres modèles éditoriaux et ses règles de fonctionnement. Brièveté, fugacité et alertes. De plus en plus de sites ont une version pour téléphones mobiles. De nombreux producteurs d’information prennent en compte ce canal. L’information via le téléphone est aussi très liée à la localisation, ce qui redonne un nouveau souffle au concept de réalité augmentée. Finis les sacs à dos et les lunettes 3D, qui sont restés à l’état de prototype. Il suffit de sortir son téléphone pour en savoir plus sur le lieu où on se trouve … à condition d’avoir la bonne application. Le foisonnement des applications, c’est sûrement la maladie d’enfance des téléphones. Mais on a aussi connu ça sur les PC. La nature de l’information disponible grâce au téléphone peut se résumer avec la locution latine “hic et nunc” qui signifie ici et maintenant.

 Les réseaux sociaux vont arriver dans leur phase de maturité

Il est probable que les réseaux sociaux vont arriver dans une phase de maturité dans laquelle les usages pourront se fixer. On a connu ce phénomène avec les blogs. Après une phase inflationniste où chacun a créé son blog pour dire tout et rien, le blog a trouvé sa vitesse de croisière. Il est maintenant bien intégré dans l’arsenal des communicateurs et prend une place toujours plus grande dans le paysage informationnel où il remplace souvent les listes de communiqué de presse. Des sites comme celui de la Maison Blanche ou du 10 Downing Street ressemblent maintenant à des blogs. Une firme comme Google en a fait son principal outil de communication. Les blogs actuels n’offrent pas nécessairement la possibilité de commenter. Ils constituent un nouveau format, plus accessible au grand public.

Pour l’instant, les réseaux sociaux sont encore dans la phase où tout le monde veut s’y mettre et personne ne sait comment les utiliser. Il y a beaucoup d’essais, d’expérimentations. La situation devrait se décanter peu à peu et ces instruments trouveront leur place. Mais ce ne sera peut-être pas encore pour 2010.

L’avenir de la presse est à construire

La presse va encore subir de profonds changements. Internet a certainement joué un rôle de catalyseur dans la crise de la presse, mais ses véritables causes sont peut-être ailleurs. L’information a été dénaturée parce qu’on en a fait un produit dont on pensait qu’on pouvait le vendre comme des boîtes de conserve. C’est vrai pour l’actualité comme pour l’information culturelle. Les contenus des journaux sont devenus du easy reading: pages people et conseils d’achats, témoignages et tests psychologiques remplacent allègrement le reportage d’un journaliste d’investigation ou les critiques sur le monde de l’art. Dans le domaine de l’édition, on fait de même en tablant essentiellement sur des bestsellers. Tout cela a fait le jeu de la concurrence présente sur Internet: blogosphère, journalisme citoyen, encyclopédie collaborative. Cela d’autant plus facilement que les contributeurs sur Internet on érigé la gratuité en dogme fondamental. De fait, l’avenir du journalisme et de ses règles déontologiques nécessaires est encore difficile à percevoir. Actuellement les formes hybrides comme le Post.fr ou Rue89 sont en vogue. Elles allient vitesse de réaction, collaboration et vérification professionnelle des informations.

http://www.rue89.com/

http://www.lepost.fr/

Certains tablent aussi sur le retour du journaliste, qui (re)deviendrait sa propre marque (comme Henry Morton Stanley ou Albert Londres, sans parler des modèles imaginaires comme Tintin). On retournerait au temps des grandes plumes. Les journalistes auraient leur propre blog, écriraient des articles pour d’autres titres et des livres.

http://bruxelles.blogs.liberation.fr/coulisses/2009/09/mon-avenir-estil-de-devenir-une-marque-.html

Une autre hypothèse serait la création de plateformes comparables à iTunes où les utilisateurs pourrait télécharger des articles contre des sommes minimes ou un abonnement. Le micro-payement constituerait (peut-être) une solution au problème lancinant du financement de la presse.

http://www.journalismonline.com/

Good enough revolution

C’est peut-être l’une des tendances qui est apparue au grand jour cette année, même si elle existait sur Internet depuis longtemps. La thèse principale de cet article de la revue Wired est la suivante: les utilisateurs ne recherchent pas les meilleures solutions, mais se contentent de ce qui marche. Ils téléphonent avec Skype, même si le son n’est pas optimal. Ils regardent des vidéos sur You Tube et vont moins au cinéma (mais ils iront peut-être pour Avatar). Ils achètent des Netbooks. Bref, le porte-monnaie est peut-être devenu le critère fondamental de choix, tant que le résultat est là.

http://www.wired.com/gadgets/miscellaneous/magazine/17-09/ff_goodenough

Le web sémantique

Cette année est apparu Wolfram Alpha. Ce moteur de recherche a popularisé une fonctionnalité que l’on trouvait déjà sur quelques sites: un moteur de recherche qui répond directement aux questions, sans donner une liste de liens qu’il faut encore ouvrir les uns après les autres. Désormais ce n’est plus à l’utilisateur de rechercher lui-même des réponses à ses questions. Les nouvelles générations de moteur de recherche devront les lui fournir. Pour cela, ils devront exploiter les données et les métadonnées présentes sur Internet. Ils devront aussi comprendre le langage de l’utilisateur. Ils devront aussi lui donner des réponses contextuelles, liées à sa position géographique par exemple. L’utilisateur aura accès directement aux informations nécessaires là où il est, quand il en a besoin.

http://www.wolframalpha.com/

En conclusion …

Boule de cristal

Dans le futur, j’accèderai à Internet grâce à un petit appareil de rien du tout dans ma poche. Il me coûtera un peu d’argent, chaque mois ou à chaque transaction. Quand j’aurai besoin d’une information (et même si je ne la demande pas), elle me parviendra en tenant compte du contexte. Quand j’arriverai à la gare, mon petit appareil me signalera des grèves. Si je prends l’avion pour un pays lointain, il m’informera d’un coup d’état. Quand je ferai les magasins, il me dira si le prix indiqué est trop élevé. Si je suis d’accord, il règlera lui-même la note. Quand je passerai devant la maison natale d’un grand homme, il me donnera sa biographie. Il me dira même qu’un de mes potes se promène dans les alentours.

Mais ce petit appareil ne sonnera pas quand passera devant moi l’homme de ma vie ou si ma voisine fait un malaise. Il me dira peut-être des choses stupides, comme de faire demi-tour dans un tunnel. Il ne remplacera pas mes amis.  Il me donnera le nom d’un peintre devant un tableau, mais il ne saura pas me dire pourquoi cette peinture est belle. Avec lui, je me sentirai seule.

Bonne année 2010

Cerveau et ordinateur

Internet contient maintenant des milliards de documents: pages HTML, images, fichiers de texte, sons, vidéos, etc. Les moteurs de recherche permettent d’indexer cette masse. Cependant il est difficile d’ordonner les différents résultats afin que l’utilisateur soit satisfait de la réponse. Google utilise par exemple le critère des liens entrants: plus une page est liée, plus elle apparaîtra haut dans la liste. C’est pourquoi nous avons souvent l’impression de tomber sur le bon site en faisait une recherche dans Google: ce sont les sites les plus populaires qui viennent en premier. Mais qu’en est-il de tous les fichiers qui composent les sites Web. Prenons une personne qui recherche une image de pommier. Il en existe des centaines de milliers. Mais comment offrir les images les plus intéressantes dans la première page de résultats? Flickr gère plus de trois milliards d’images, ce qui rend le tri assez ardu. Son équipe de développement s’est penchée sur la question et elle y a répondu par le concept d’interestingness. On relève les traces d’activités autour de l’image: clic, choix comme favori, commentaires, etc. Grâce à cela, on arrive à mettre en évidence des images intéressantes. Le résultat est rarement décevant:

http://www.flickr.com/explore/interesting/

http://www.flickr.com/explore/interesting/2009/10/

Pour obtenir ce résultat, on n’a pas seulement eu recours à l’ordinateur. On a aussi utilisé l’activité humaine. En effet, un ordinateur, si puissant soit-il, ne peut déterminer ce qui est beau ou intéressant.

Luis von Ahn, chercheur à la Carnegie Mellon University, se penche sur cette question depuis des années. Il est persuadé par l’idée que les ordinateurs sont limités et qu’ils ne pourront jamais effectuer certaines tâches qui sont simples pour le cerveau humain. C’est lui qui a lancé le fameux ESP game, qui permettait d’attribuer des mots-clés à des images. Deux partenaires, mis ensemble par hasard, doivent attribuer des mots-clés (ou tags) à des images. Si les mots-clés des deux joueurs correspondent, des points sont attribués à chacun. Les joueurs cumulent les points de toutes les parties qu’ils jouent: à celui qui en obtient le plus. Attention, le jeu est plus addictif qu’il en a l’air. Google a repris ce jeu et l’a intégré à Google Images sous la forme du Google Image Labeler:

http://images.google.com/imagelabeler/

Luis von Ahn a continué de développer ses idées à travers d’autres jeux. On les trouve tous maintenant sur un site intitulé GWAP: games with a purpose.

Gwap

http://www.gwap.com/

Il s’agit de véritables jeux où les participants accumulent des scores: les points glanés dans les différents jeux s’additionnent. Le but de ces jeux est d’ajouter aux documents soumis différentes métadonnées. On retrouve donc l’ESP Game. Avec Tag a Tune, les deux joueurs écoutent un morceau de musique qu’ils doivent caractériser. En lisant les mots-clés de l’autre, chaque joueur doit essayer de deviner si tous deux écoutent le même morceau. Le but est donc d’attribuer des tags à des morceaux de musique. Verbosity offre tour à tour à chacun des joueur un terme: l’un doit le caractériser, tandis que l’autre le devine. Visiblement, il s’agit d’établir des associations de termes. Avec Squigl, chacun des partenaire doit entourer ce qui correspond à un terme donné sur une image: le jeu indique “ours” et le joueur doit entourer l’endroit où il voit un ours sur l’image. Enfin Matchin (le plus addictif selon moi) présente à deux partenaires deux images: chacun doit indiquer celle qui lui plaît le plus. Si les deux joueurs choisissent la même image, ils reçoivent des points. S’ils optent pour la même photo plusieurs fois de suite, le nombre de point obtenus par tour augmentent. Le but de ce jeu est de mettre en avant les images de bonne qualité et d’écarter celles qui sont moins belles (comme les photos prises en fin de soirée et postées sur Facebook). On retrouve l’interestingness de Flickr.

Gwap

Non seulement ces jeux sont utiles, car ils permettent d’indexer des masses énormes de documents, mais ils sont aussi basés sur la collaboration plutôt que sur l’opposition. A l’heure des jeux de type “Kill them all”, cela vaut la peine d’être mentionné.

Le site GWAP prétend aussi qu’il peut deviner votre genre avec 10 paires d’images où il faut dire celle que l’on aime le mieux. Mais ça ne marche pas à tous les coups.

Luis von Ahn est aussi le créateur du Captcha, ce système anti-spam bien connu, évitant aux robots de placer des commentaires sur les blogs ou d’envoyer des messages par formulaire Web. Il l’a conçu dans le même esprit d’utilité et de contribution du cerveau humain à des projets informatiques. Le Captcha soumet deux images représentant des termes écrits que l’utilisateur doit retranscrire. Ces deux termes proviennent de la numérisation de livres ou de journaux. L’un des deux termes a été reconnu correctement par le programme de reconnaissance de caractères (OCR), alors que l’autre a été mal lu (le logiciel d’OCR étant capable de reconnaître ses erreurs). L’utilisateur ignore lequel des deux mots est correcte. S’il transcrit correctement le terme qui a été lu de manière juste par l’ordinateur, le système part de l’idée que le second est aussi juste. Les couples de terme sont soumis plusieurs fois et si on obtient toujours le même résultat, la lecture “humaine” est validée. Ce système est utilisé pour améliorer la numérisation d’ouvrages qui sont intégrés aux Internet Archives. Le nombre de transactions quotidiennes passant par le Captcha étant de 200 millions, l’amélioration de la numérisation est donc réelle.

Captcha

http://recaptcha.net/

Internet Archives

Page de Luis von Ahn sur le site de la Carnegie Mellon University

A travers ces exemples remarquables, comme dans les réseaux sociaux, on sent l’imbrication de plus en plus grande entre cerveau électronique et cerveau biologique. Chacun de ces cerveaux a ses propres limites: les puces ont des puissances de calcul qui dépassent largement tout ce que nos neurones peuvent faire, mais elles ne peuvent exécuter que les tâches qui ont été programmées. Le cerveau humain a des compétences que jamais un ordinateur n’aura: imagination, conscience. En revanche, il peut utiliser les machines pour augmenter certaines fonctions: on songe en premier lieu à la mémoire.

Cette proximité toujours plus grande entre l’homme et la machine doit nous faire un peu réfléchir. Il devrait toujours revenir à l’homme de déterminer le partage des tâches. Et cela passe par une connaissance du fonctionnement d’un ordinateur auquel on a tendance à accorder trop d’intelligence et donc le développement, à large échelle, d’une culture informatique à ne pas confondre avec des compétences dans l’utilisation de l’informatique.

Des photos qu’on peut utiliser … enfin

De nombreuses personnes, notamment des blogueurs, utilisent des moteurs de recherche d’images pour trouver des illustrations. Mais c’est très frustrant de trouver de belles images et de ne pas pouvoir les utiliser (ou de ne pas être sûr de pouvoir). Google vient d’ajouter une nouvelle fonctionnalité à son moteur de recherche d’images qui peut s’avérer très utile. Dans les recherches avancées, on peut désormais filtrer des images selon le type de licence:

  • sans tenir compte des licences
  •  réutilisation autorisée
  • réutilisation à des fins commerciales autorisée
  • réutilisation avec modification autorisée
  • réutilisation avec modification à des fins commerciales autorisée

Le moteur recherche les images qui sont indexées selon les licences Creative Commons, qui sont sous licence GNU ou dans le domaine public. Bien entendu, il faut tout de même vérifier si la licence est correcte quand on veut utiliser l’image. Mais au moins, on évite de se retrouver devant des images tentantes, mais qu’on a pas le droit d’utiliser.

Google Search
http://images.google.ch/advanced_image_search?hl=fr

Recherche: un changement de paradigme

Les premiers moteurs de recherche n’avaient qu’un seul but: permettre de trouver des sites Internet où l’on pouvait trouver des informations intéressantes. Ces applications ont rapidement détrôné les annuaires du Web dont Yahoo était l’exemple le plus célèbre. Google est également parti de cette conception, puisque son algorithme se concentrait essentiellement sur les contenus des sites et les liens des différents sites entre eux.

Le récent lancement de Wolfram Alpha, du nouveau moteur de recherche de Microsoft, Bing, et de quelques innovations sur Google indiquent cependant un changement de paradigme assez profond dans le domaine de la recherche.

Sur Wolfram Alpha, il devient possible de poser une question en langage naturel. L’algorithme analyse la question et y répond, au lieu de renvoyer à des liens vers des sites sur lesquels l’internaute devra trouver sa réponse. Ainsi, si l’on demande à Wolfram Alpha: “how many people in Switzerland?”, le système donne le nombre d’habitants en Suisse et même un graphique indiquant l’évolution de la population.

Wolfram Alpha

http://www.wolframalpha.com/

Bien entendu, Wolfram Alpha n’a pas encore réponse à tout. Il ne comprend que l’anglais et ne connaît pas grand chose au sport. Cependant le succès des premiers jours (près de 100 millions de requêtes en une semaine) indique bien qu’il correspond à l’attente des internautes. Ces derniers veulent des réponses et non des pistes de recherche. En fait, ce type de moteur de recherche existe déjà, limité à des domaines spécifiques. L’ambition de Wolfram (auteur de l’ouvrage “A new kind of science”) est de l’étendre au Web.

Microsoft présente son nouveau moteur de recherche comme une aide à la décision. Cette application permet  d’effectuer des recherches dans les pages Web, les images, les vidéos, l’actualité, des cartes. Outre le résultat sous forme de liens, elle montre des termes de recherche associés. L’aide à la décision se fait peut-être dans le domaine des propositions d’achat ou les données touristiques. La recherche peut aussi s’effectuer dans les cartes.

Bing

Bing

http://www.bing.com

Google n’est pas en reste. A côté des résultats, on trouve maintenant un lien intitulé “Show options”. Parmi ces options, une “wonderwheel” (roue magique) donne, sous forme visuelle les concepts associés au terme de recherche. Quant au timeline, il présente l’information recherchée sous la forme d’une frise chronologique l’information recherchée.

Google options

http://www.google.com

Internet  constitue la plus formidable masse de connaissances jamais rassemblée dans l’histoire de l’humanité. Il s’enrichit chaque jour des données les plus diverses, y compris celles qui concernent les individus dans les réseaux sociaux. Se borner à aiguiller les gens à travers ce dédale devient risible. Il est temps maintenant d’exploiter le contenu d’Internet comme une base de connaissances. C’est le rêve du Web sémantique. Ce dernier ne semble pas forcément se réaliser comme l’avaient pensé ses concepteurs, mais il est en marche.

Si on ajoute à cette évolution dans le domaine de la recherche, la multiplication des appareils mobiles permettant d’accéder aux ressources d’Internet, on peut imaginer que nous serons en permanence connectés à cette masse de connaissance. Toute question trouvera immédiatement une réponse, où que l’on soit: à quelle heure part mon avion? Où ai-je laissé ma voiture? Qui parmi mes amis se trouvent dans les environs? Qui est Picasso? Que s’est-il passé à cet endroit depuis deux siècles? Que dit la loi? Qui a gagné ce match de tennis? Il suffira d’entrer quelques mots dans son téléphone pour le savoir. Bientôt nous saurons nager dans la mer des connaissances …

Différentes facettes

L’expression anglaise “faceted browsing” s’applique à une technique permeetant d’accéder à une collection d’informations selon différents filtres. Chaque objet de la collection se voit attribuer différentes catégories. Ces catégories sont à la base des filtres de recherche.

Un site qui vient de naître et qui présente les différents musées de Suisse romande comme autant de buts de promenade illustre cette technique du faceted browsing: Musardage.

Musardage

Musardage (http://www.musardage.ch)

Ce site contient une liste des expositions actuellement ouvertes en Suisse romande. Mais cette liste peut être lue de différentes manières: comme un tableau, comme une liste illustrée par les miniatures des affiches, comme une frise chronologique ou comme une carte de géographie.  De plus, il est possible de filtrer l’ensemble des expositions selon des sujets, le canton ou la localité.

Musardage

Frise chronologique

Musardage

Carte de géographie

Dans la même veine et par le même auteur, on peut aussi parcourir une liste des empereurs romains.

Empereurs romains

Liste des empereurs romains

Les multiples facettes de la réalité

Aujourd’hui, en faisant mes courses dans les rayons d’une enseigne connue, je me suis mise à la recherche d’allumettes. Spontanément, je me suis rendue au rayon des bougies en pensant que les allumettes ne devraient pas en être éloignées. Mais je n’en ai pas vues. Le rayon des caquelons à fondue étant juste à côté, j’y ai jeté un oeil, sans succès. Je me suis donc résignée à demander l’aide d’une vendeuse. Cette dernière m’a entraînée vers le rayon des … piles électriques. C’est là que se trouvaient les boîtes d’allumettes.

Je me suis donc demandée quelle était la caractéristique commune des piles électriques et des allumettes. L’énergie … pardi! Historiquement, les plaques électriques ont remplacé la cuisinière à bois et les torches électriques ont succédé aux chandelles.

Allumettes

Image: fedecomite

En passant, j’ai remarqué que les boîtes d’allumettes que j’avais mises dans mon panier étaient ornées d’images de sites archéologiques fameux. Encore un exemple de muséographie nomade non exploitée …

Revenons cependant à notre quête d’allumettes. Nous avons procédé par association d’idées en reliant l’allumette à ce qu’elle peut allumer, plutôt qu’à sa fonction générique de source d’énergie. Autant de clients dans un magasin, autant d’associations différentes. Les supermarchés ont tendance à séparer les produits, plutôt que de les associer selon leur usage. Il faut dire que l’espace-temps est une dimension difficile à gérer et qu’un objet ne peut pas être à deux endroits en même temps. C’est justement la grande différence entre le monde que nous connaissons dans notre expérience quotidienne et le monde numérique où l’ubiquité est possible.

La navigation des sites Internet peut se montrer aussi contraignante que l’organisation des rayons d’un supermarché. Il lui ajouter aux objets numériques des méta-données, c’est-à-dire des informations qui les décrivent, pour en augmenter le dynamisme. Les produits que l’on trouve dans les magasins comportent de nombreuses informations, comme le prix, la composition, le mode d’emploi. Mais ces informations sont directement imprimées sur l’emballage ou sur une étiquette. Il faut avoir le produit en main pour les lire (et souvent de bonnes lunettes ainsi qu’un diplôme de chimiste). Il en va tout autrement dans le monde numérique où ces informations sont exploitables grâce à un moteur de recherche ou à tout autre programme. Il est possible de les utiliser pour construire la navigation des sites et donner des accès différents dans une même masse d’informations. On appelle cela le faceting browsing. Dans une librairie en ligne, on peut chercher les articles selon divers critères:  auteur, genre littéraire, éditeurs, etc… On peut ensuite trier les listes de résultats selon la date de parution ou le prix. Cela donne au consommateur plus de possibilités de trouver ce qu’il cherche et de tirer parti de ses propres associations d’idées.

Ne rencontre-t-on pas le même problème dans l’organisation des musées? Les tableaux, les sculptures, les objets ne peuvent se trouver qu’en un seul endroit.  Le conservateur doit donc décider du meilleur endroit pour les pièces de ses collections. Mais dans des domaines aussi subjectifs que l’art, les logiques deviennent très personnelles. Faut-il adopter une logique chronologique, géographiques? Faut-il mettre les oeuvres d’un même peintre dans une salle ou privilégier une approche thématique? Certes, les expositions peuvent remédier temporairement à la situation. Mais globalement les visiteurs partagent tous la même vue des collections. C’est donc l’un des avantages des musées virtuels sur Internet. Ils sont nommés virtuels justement parce que chaque visiteur va générer une vue de la collection qui lui est propre. Les musées virtuels présentent le grand avantage de permettre autant de visites que de visiteurs et de laisser ces derniers découvrir des oeuvres selon leurs intérêts personnels.

L’indexation des contenus est une des clés de l’évolution future d’Internet. On la trouve finalement dans tous les domaines novateurs, à commencer par les réseaux sociaux dans lesquels les individus s’indexent eux-mêmes.  Grâce à cette indexation, le visiteur ou l’utilisateur a beaucoup de flexibilité dans l’exploitation de collections, qu’il s’agisse de produits, de pièces de musées ou de personnes. C’est l’émergence du Web sémantique qui se prépare.

Le Web participatif n’est pas mort, mais dépassé

On m’a mis sous les yeux un article annonçant la mort du Web participatif. Ce genre d’annonce paraît régulièrement. On a prédit depuis longtemps la mort des blogs qui se portent à merveille (merci pour eux!). Cet article se base bien évidemment sur une note de blog (!), dont l’auteur est François Guillot (blog Internet & Opinion). Le but de sa note est de montrer que ce qu’on appelle Web participatif repose en partie sur des mythes et des demies-vérités. L’auteur essaie donc de dégonfler – en quelques lignes – ces mythes, à commencer par Wikipédia, qui ne serait pas aussi comparable à la Britannica que ne le prétendait la très sérieuse revue Nature. L’intérêt du phénomène Wikipédia ne se situe pas dans sa qualité, mais dans son audience. Wikipédia est la première source d’information pour les internautes, bien aidée en cela par Google, il est vrai. Chacun peut l’éditer et c’est probablement ce qui fait son succès. Le savoir est intimidant, surtout pour ceux qui en ont peu. Par conséquent, une source d’information faite par des gens comme eux fait moins peur. Les plus courageux peuvent même y participer et partager les connaissances qu’ils ont. Dans son ouvrage Wikipédia. Média de la connaissance démocratique?, Marc Foglia la définit comme une encyclopédie citoyenne, qui réunit du savoir froid, à savoir loin des débats académiques. Wikipédia a fait renaître l’idéal des Lumières du partage du savoir. Pour revenir au thème de la participation, j’ai déjà expliqué dans ce blog qu’il s’agit d’un phénomène plus complexe qu’il n’y paraît: alors que certains publient des contenus sous forme de textes, de photos, etc., d’autres passent du temps à gérer ces contenus, en les indexant ou alors en ajoutant les liens manquants dans les wikis. Contrairement aux blogueurs, les contributeurs de Wikipédia sont modestes. François Guillot montre qu’une des faiblesses des sites participatifs réside dans leur business model déficiant. Le financement de Wikipédia est intéressant: la Fondation qui la gère fait régulièrement des appels de dons. Dernièrement, elle a obtenu la somme qu’elle a demandé, à savoir 6 millions de dollars. Il existe bien d’autres activités qui vivent de dons, à commencer par les organisations caritatives. Alors pourquoi pas une encyclopédie.

Autre site participatif pourfendu par notre blogueur: Flickr, un site qui suscite mon admiration depuis longtemps. L’auteur essaie de montrer que le pourcentage des personnes qui sont actives sur les sites participatifs est faible: peu de personnes publient beaucoup de contenus. Et pour cela, il avance des chiffres: dans Flickr, seuls 2% des utilisateurs livrent 95 % du contenu. En fait, ce sont ces chiffres surprenants qui m’ont donné l’envie d’un peu creuser l’affaire. On manque de s’étouffer quand on consulte la table de données à laquelle l’auteur se réfère. Elle est faite à partir de sources multiples, réparties sur plusieurs années. La référence à un sondage de 2006 auprès de 573 utilisateurs de 4 sites de partage de photos et vidéos en Allemagne laisse pantois. Le critère qui définit les utilisateurs de Second Life participant aux contenus comme ceux qui effectuent un achat n’a que peu de sens, à moins que l’on considère le fait de s’habiller et de se coiffer comme des actes créateurs.

http://internetetopinion.files.wordpress.com/2007/08/image-5.png

Pour revenir à Flickr, on a peu de chiffres à disposition pour savoir si ce que prétend notre blogueur est vrai. Actuellement, Flickr compte 3 milliards d’images. Il est difficile de savoir combien il a d’utilisateurs actifs. Le nombre de personnes qui ont ouvert un compte (en ayant d’abord un compte Yahoo) et qui sont venues une fois sur le site est certainement nombreux. C’est un phénomène général à Internet. Flickr offre un produit payant destiné aux photographes professionnels et assimilés. Ces utilisateurs-là ont forcément de grandes quantités d’images. Il faudrait donc pouvoir distinguer ces deux types de comptes. Une seule chose est sûre, c’est que le 100% du contenu a été publié par des internautes.

En fait, après avoir effectué quelques recherches, je n’ai que deux chiffres à disposition: le nombre total d’images publiées entre février 2004 et novembre 2008 (3 milliards d’images en 1735 jours) ainsi que le nombre de visiteurs moyens dont on ne connaît pas la proportion d’utilisateurs actifs (42 millions de visiteurs par mois en avril 2008).

Nombre d’utilisateurs: http://yhoo.client.shareholder.com/press/releasedetail.cfm?ReleaseID=303857

Nombre d’images: http://blog.flickr.net/en/2008/11/03/3-billion/

A l’aide de ces chiffres, qui valent ce qu’ils valent, essayons de voir si les valeurs données par François Guillot tiennent la route. En moyenne, 1,7 mio de photos ont été publiées par jour (mais l’augmentation est exponentielle, le dernier milliard ayant été atteint en moins d’un an). Le site a 1,4 millions de visiteurs par jour (mais il peut s’agir de détenteurs de comptes professionnels comme de simples visiteurs). Si 2% de ces visiteurs livrait le 95% du contenu, cela signifierait que, chaque jour, 28’000 personnes mettent 1,6 mio de photos, ce qui fait, en moyenne, 57 photos pour chacune de ces personnes actives. En prenant en compte, le travail d’indexation, cela nécessite quand même un peu de temps, plus d’une heure en tout cas. Et si on refait ces calculs à partir d’un nombre d’utilisateurs plus bas, qui ne seraient alors que les utilisateurs pourvus d’un compte, on aurait pour ce 2% d’hyperactifs un nombre d’images par jour encore plus important. Il faut tout de même qu’ils trouvent le temps de prendre des photos avant de les charger sur Internet. Ce 2% n’est réaliste que si on considère l’activité journalière. Chaque jour, il y pourrait bien n’y avoir que 2% des utilisateurs qui chargent 95% des photos, par exemple des gens qui rentrent de vacances, d’excursion ou qui ont participé à un mariage. Mais le lendemain, ces 2% ne sont pas les mêmes personnes. Les images sont donc distribuées entre un nombre d’utilisateurs plus important que 2% des utilisateurs totaux. Il faut aussi tenir compte du fait que les comptes gratuits ont des limitations (100 MB de téléchargement par mois). De plus, je visite régulièrement Flickr, mais je n’ai jamais vu de comptes avec un nombre gigantesque de photos. Or si seuls 2% des utilisateurs livraient 95% du contenu, on devrait forcément tomber sur des portofolios immenses. C’est donc plus simple d’imaginer que sur Flickr beaucoup de personnes téléchargent un nombre raisonnable d’images. 3 milliards, c’est une masse importante (comme si près d’un terrien sur deux avait téléchargé une image). Mais ce n’est rien à côté de Facebook qui, en octobre dernier, en annonçait 10 milliards pour 150 millions d’utilisateurs (67 photos par utilisateur en moyenne). Chaque mois, 800 millions de photos sont chargées (5,3 photos par utilisateur en moyenne mensuelle).

http://www.facebook.com/press/info.php?statistics

Dans un site comme Flickr, on ne peut pas du reste limiter la participation au fait de télécharger des images. On a vu avec Wikipédia que contribuer ne signifie pas seulement livrer des contenus, mais aussi les gérer. Avec Flickr, il est possible d’aller encore plus loin et de mettre en valeur des contenus. A cause de la richesse des fonctionnalités disponibles, il est difficile de définir un utilisateur actif. On peut en distinguer trois catégories:

  • ceux qui visitent le site
  • ceux qui produisent du contenu (dont une partie de professionnels)
  • ceux qui valorisent les contenus

Cette valorisation peut se faire de plusieurs manières:

  • attribution de mots-clés à des contenus
  • création et gestion de groupes à propos d’un thème et discussions autour de ces images
  • exportation des images, des vidéos ou des diaporamas sur des blogs ou des sites Web externes

Flickr est un plus qu’un site participatif. Il constitue une sorte d’éco-système d’information. Certains (les plus talentueux dont je ne fais pas partie) produisent des images et les publient sur Flickr. D’autres facilitent l’accès à ces images en les indexant. Cela n’a l’air de rien, mais sur un site qui compte 3 milliards de photos, c’est essentiel pour améliorer la recherche. Les utilisateurs annotent les photos et peuvent même prendre contact avec leur auteur (car Flickr tient aussi du réseau social). Enfin, ils peuvent exporter ces images pour enrichir leurs propres contenus, blogs ou sites. Flickr offre une fonction d’exportation vers les principales plateformes de blog et une possibilité d’intégrer des diaporamas. On peut par exemple intégrer à un site un diaporama géré par un mot-clé (photos avec le mot-clé pyramide) ou par un groupe. A dire vrai, Flickr a dépassé le stade du site participatif et il est en train d’évoluer vers le Web 3 (sémantique). Ce Web sémantique émerge peu à peu: de plus en plus de contenus sont enrichis de méta-données et exportables, permettant un véritable remixage de l’information. N’en déplaise à un certain baron, l’important n’est plus de participer, mais de mettre en valeur.

François Guillot se bat contre des moulins, mais il le sait. Dans les commentaires de sa note de blog, il admet qu’étant à la recherche d’audience, il s’est montré un peu provocateur …

Un dictionnaire virtuel

Google offre une fonctionnalité intéressante. En saisissant “define:” avant le terme recherché, on obtient non pas une liste de liens, mais une série de définitions glanées sur le Web.

Champ de recherche Google

Les résultats obtenus sont loin d’être parfaits. Cependant cette possibilité fait réfléchir. La masse immense de données que constitue Google peut être exploitée de diverses manières et produire autre chose que des passages vers d’autres sites. Le moteur de recherche essaye de retrouver tout ce qui peut constituer une définition et générer un dictionnaire. Si on y réfléchit un peu, ce dictionnaire se trouve déjà potentiellement dans Google et il s’agit de l’actualiser.

Une question fondamentale demeure: peut-on imaginer qu’un dictionnaire censé livrer le sens des mots d’un langage naturel soit généré uniquement grâce à un programme, sans l’aide des humains, porteurs du langage naturel? Le Web sémantique se fera-t-il avec des robots ou avec des hommes?