Curateur, l’avenir du Web

Tout le monde connaît Paper.li. Cette application fabrique un journal à partir des personnes que l’on suit dans Twitter. Le résultat est toujours intéressant. Néanmoins quand on lit une édition, il y a parfois des articles que l’on n’aurait pas repris. Il est possible de paramétriser Paper.li, mais pas jusqu’au niveau de l’article. Pour parvenir à monter soi-même son journal, il faut utiliser Scoop.it.

Scoop.it

Cette application permet de choisir dans une liste créée à partir de requêtes dans Google et dans diverses plateformes des articles que l’on souhaite mettre en ligne. On peut même modifier le texte ou changer l’image. Il est aussi possible de déplacer les articles sur la page. L’application permet la gestion des sources également: on peut déterminer les mots-clés à rechercher ainsi que les services et plateformes dans lesquels l’application va chercher des informations.

http:www.scoop.it

Par rapport à Paper.li, Scoop.it permet d’être véritablement un curateur. Les informations ne sont pas assemblées par un algorithme, mais par une personne. L’application aide dans deux tâches fastidieuses: la mise en page et la recherche d’information. Le reste, c’est un cerveau humain qui le fait. Le Web comporte tellement d’informations que des algorithmes seuls ne peuvent pas rendre ces informations plus accessible. Il faut – encore et toujours – faire appel à l’intelligence humaine. On peut devenir des curateurs de toute cette matière informe qui ne demande qu’à être canalisée.

 

Fast knowledge

On lit de moins en moins de livres et on parcourt des textes de moins en moins long. Même un article de Wikipédia peut sembler fastidieux à lire. Qwiki est un moteur de recherche qui veut donner une nouvelle expérience de la connaissance. Plutôt que de retourner une liste de liens, il crée une brève animation, qui peut durer entre 45 secondes et 1 minute et demie. Un algorithme assemble divers éléments multimédia tels que des vidéos, des photos, des cartes, des infographies. Tous ces éléments proviennent de sites ouverts comme YouTube, Wikimedia, Fotopedia ou Google Maps. Les infographies sont générées par le site lui-même à partir des données trouvées: pour les personnages, on voit des timelines indiquant la durée de la vie ou l’âge actuel alors que pour d’autres sujets, on obtient des graphiques. On peut cliquer sur chaque élément qui apparaît pour accéder à sa source. Il est ensuite possible de redémarrer l’animation. Tout au long de l’animation, une voix synthétique lit des extraits de l’article de Wikipédia correspondant à la recherche, pratiquement mot à mot. Bien sûr, cela ne fonctionne qu’en anglais et la lecture des termes qui sont dans d’autres langues est hasardeuse.

Qwiki

http://www.qwiki.com/

Qwiki n’est pas sans rappeler Wolfram Alpha, le moteur de recherche basé sur des données structurées et qui est capable d’opérations diverses, comme calculer la quantité de calories ingérées à partir de la liste de ce qu’on a mangé au déjeuner. La comparaison s’arrête là. Alors que Wolfram Alpha va s’appuyer sur des sources solides et effectuer de nombreux types d’opérations, Qwiki ne fait qu’illustrer des paragraphes issues de Wikipédia avec des images ou des vidéos de manière un peu aléatoire. En effet, à part certains éléments comme les cartes ou les graphiques, les documents montrés ne sont guère en rapport avec le texte utilisé. Il ne semble calculer que des choses simples, comme la durée de la vie d’une personne. Qwiki est à Wolfram Alpha ce que le hamburger est tournedos Rossini, une vague approximation. A sa décharge, il faut dire que les données utilisées ne sont pas vraiment simples à exploiter. Rien n’est moins bien structuré que Wikipédia ou rien n’est moins bien indexé que les images sur Internet.

Qwiki est cependant en version Alpha maintenant. Les résultats sont malgré tout bluffant. Il y a peu de documents totalement hors propos. Ce moteur de recherche va certainement encore s’améliorer. Néanmoins on peut s’interroger sur l’impact qu’il pourrait avoir sur ses utilisateurs, en cas de succès. Qwiki, c’est quand même un peu du tout cuit. Le résultat apparaît sous une forme sophistiquée, mais accessible sans effort. Il donne l’impression d’avoir été monté par un humain et s’impose à l’esprit. Ce n’est donc pas avec ce genre d’outil que l’on va aiguiser le sens critique des internautes.

Pour la petite histoire, parmi les personnes qui se trouvent derrière Qwiki, on peut mentionner Louis Monier, qui n’est autre que l’un des fondateurs d’Alta Vista, le premier moteur de recherche du Web. Une histoire à suivre sans doute …

Internet dans un petit appareil

C’est toujours un peu dangereux de jouer les Madame Soleil en essayant de deviner les tendances de développement d’Internet pour les années à venir. Mais pourquoi pas? Cela donne en tout cas l’occasion de faire le point sur les développements marquant de 2009.

Le téléphone portable est en train de devenir le mode d’accès le plus important à Internet

Les statistiques montrent que le téléphone portable est devenu l’outil de communication le plus diffusé. L’Union Internationale des Télécommunications estime qu’à la fin de 2009, il y 4,6 milliards de souscriptions à un service de téléphonie mobile. Bien entendu, les téléphones portables permettant l’accès à Internet ne sont pas majoritaires: actuellement, le taux de pénétration est de 9,5 téléphones portables avec accès à Internet pour 100 habitants.

http://www.itu.int/ITU-D/ict/material/Telecom09_flyer.pdf

Le téléphone portable présente de nombreux avantages: léger, multi-fonctionnel, personnel (en Occident en tout cas), bénéfiant d’une large couverture réseau, bon marché à l’achat (moins à l’usage). La génération des smartphones en a fait un appareil permettant l’accès à Internet, un accès qui ne se limite pas à la consultation, mais aussi à l’écriture et à la participation aux réseaux sociaux. De fait, le téléphone est devenu un média en soi, avec ses propres modèles éditoriaux et ses règles de fonctionnement. Brièveté, fugacité et alertes. De plus en plus de sites ont une version pour téléphones mobiles. De nombreux producteurs d’information prennent en compte ce canal. L’information via le téléphone est aussi très liée à la localisation, ce qui redonne un nouveau souffle au concept de réalité augmentée. Finis les sacs à dos et les lunettes 3D, qui sont restés à l’état de prototype. Il suffit de sortir son téléphone pour en savoir plus sur le lieu où on se trouve … à condition d’avoir la bonne application. Le foisonnement des applications, c’est sûrement la maladie d’enfance des téléphones. Mais on a aussi connu ça sur les PC. La nature de l’information disponible grâce au téléphone peut se résumer avec la locution latine “hic et nunc” qui signifie ici et maintenant.

 Les réseaux sociaux vont arriver dans leur phase de maturité

Il est probable que les réseaux sociaux vont arriver dans une phase de maturité dans laquelle les usages pourront se fixer. On a connu ce phénomène avec les blogs. Après une phase inflationniste où chacun a créé son blog pour dire tout et rien, le blog a trouvé sa vitesse de croisière. Il est maintenant bien intégré dans l’arsenal des communicateurs et prend une place toujours plus grande dans le paysage informationnel où il remplace souvent les listes de communiqué de presse. Des sites comme celui de la Maison Blanche ou du 10 Downing Street ressemblent maintenant à des blogs. Une firme comme Google en a fait son principal outil de communication. Les blogs actuels n’offrent pas nécessairement la possibilité de commenter. Ils constituent un nouveau format, plus accessible au grand public.

Pour l’instant, les réseaux sociaux sont encore dans la phase où tout le monde veut s’y mettre et personne ne sait comment les utiliser. Il y a beaucoup d’essais, d’expérimentations. La situation devrait se décanter peu à peu et ces instruments trouveront leur place. Mais ce ne sera peut-être pas encore pour 2010.

L’avenir de la presse est à construire

La presse va encore subir de profonds changements. Internet a certainement joué un rôle de catalyseur dans la crise de la presse, mais ses véritables causes sont peut-être ailleurs. L’information a été dénaturée parce qu’on en a fait un produit dont on pensait qu’on pouvait le vendre comme des boîtes de conserve. C’est vrai pour l’actualité comme pour l’information culturelle. Les contenus des journaux sont devenus du easy reading: pages people et conseils d’achats, témoignages et tests psychologiques remplacent allègrement le reportage d’un journaliste d’investigation ou les critiques sur le monde de l’art. Dans le domaine de l’édition, on fait de même en tablant essentiellement sur des bestsellers. Tout cela a fait le jeu de la concurrence présente sur Internet: blogosphère, journalisme citoyen, encyclopédie collaborative. Cela d’autant plus facilement que les contributeurs sur Internet on érigé la gratuité en dogme fondamental. De fait, l’avenir du journalisme et de ses règles déontologiques nécessaires est encore difficile à percevoir. Actuellement les formes hybrides comme le Post.fr ou Rue89 sont en vogue. Elles allient vitesse de réaction, collaboration et vérification professionnelle des informations.

http://www.rue89.com/

http://www.lepost.fr/

Certains tablent aussi sur le retour du journaliste, qui (re)deviendrait sa propre marque (comme Henry Morton Stanley ou Albert Londres, sans parler des modèles imaginaires comme Tintin). On retournerait au temps des grandes plumes. Les journalistes auraient leur propre blog, écriraient des articles pour d’autres titres et des livres.

http://bruxelles.blogs.liberation.fr/coulisses/2009/09/mon-avenir-estil-de-devenir-une-marque-.html

Une autre hypothèse serait la création de plateformes comparables à iTunes où les utilisateurs pourrait télécharger des articles contre des sommes minimes ou un abonnement. Le micro-payement constituerait (peut-être) une solution au problème lancinant du financement de la presse.

http://www.journalismonline.com/

Good enough revolution

C’est peut-être l’une des tendances qui est apparue au grand jour cette année, même si elle existait sur Internet depuis longtemps. La thèse principale de cet article de la revue Wired est la suivante: les utilisateurs ne recherchent pas les meilleures solutions, mais se contentent de ce qui marche. Ils téléphonent avec Skype, même si le son n’est pas optimal. Ils regardent des vidéos sur You Tube et vont moins au cinéma (mais ils iront peut-être pour Avatar). Ils achètent des Netbooks. Bref, le porte-monnaie est peut-être devenu le critère fondamental de choix, tant que le résultat est là.

http://www.wired.com/gadgets/miscellaneous/magazine/17-09/ff_goodenough

Le web sémantique

Cette année est apparu Wolfram Alpha. Ce moteur de recherche a popularisé une fonctionnalité que l’on trouvait déjà sur quelques sites: un moteur de recherche qui répond directement aux questions, sans donner une liste de liens qu’il faut encore ouvrir les uns après les autres. Désormais ce n’est plus à l’utilisateur de rechercher lui-même des réponses à ses questions. Les nouvelles générations de moteur de recherche devront les lui fournir. Pour cela, ils devront exploiter les données et les métadonnées présentes sur Internet. Ils devront aussi comprendre le langage de l’utilisateur. Ils devront aussi lui donner des réponses contextuelles, liées à sa position géographique par exemple. L’utilisateur aura accès directement aux informations nécessaires là où il est, quand il en a besoin.

http://www.wolframalpha.com/

En conclusion …

Boule de cristal

Dans le futur, j’accèderai à Internet grâce à un petit appareil de rien du tout dans ma poche. Il me coûtera un peu d’argent, chaque mois ou à chaque transaction. Quand j’aurai besoin d’une information (et même si je ne la demande pas), elle me parviendra en tenant compte du contexte. Quand j’arriverai à la gare, mon petit appareil me signalera des grèves. Si je prends l’avion pour un pays lointain, il m’informera d’un coup d’état. Quand je ferai les magasins, il me dira si le prix indiqué est trop élevé. Si je suis d’accord, il règlera lui-même la note. Quand je passerai devant la maison natale d’un grand homme, il me donnera sa biographie. Il me dira même qu’un de mes potes se promène dans les alentours.

Mais ce petit appareil ne sonnera pas quand passera devant moi l’homme de ma vie ou si ma voisine fait un malaise. Il me dira peut-être des choses stupides, comme de faire demi-tour dans un tunnel. Il ne remplacera pas mes amis.  Il me donnera le nom d’un peintre devant un tableau, mais il ne saura pas me dire pourquoi cette peinture est belle. Avec lui, je me sentirai seule.

Bonne année 2010

Cerveau et ordinateur

Internet contient maintenant des milliards de documents: pages HTML, images, fichiers de texte, sons, vidéos, etc. Les moteurs de recherche permettent d’indexer cette masse. Cependant il est difficile d’ordonner les différents résultats afin que l’utilisateur soit satisfait de la réponse. Google utilise par exemple le critère des liens entrants: plus une page est liée, plus elle apparaîtra haut dans la liste. C’est pourquoi nous avons souvent l’impression de tomber sur le bon site en faisait une recherche dans Google: ce sont les sites les plus populaires qui viennent en premier. Mais qu’en est-il de tous les fichiers qui composent les sites Web. Prenons une personne qui recherche une image de pommier. Il en existe des centaines de milliers. Mais comment offrir les images les plus intéressantes dans la première page de résultats? Flickr gère plus de trois milliards d’images, ce qui rend le tri assez ardu. Son équipe de développement s’est penchée sur la question et elle y a répondu par le concept d’interestingness. On relève les traces d’activités autour de l’image: clic, choix comme favori, commentaires, etc. Grâce à cela, on arrive à mettre en évidence des images intéressantes. Le résultat est rarement décevant:

http://www.flickr.com/explore/interesting/

http://www.flickr.com/explore/interesting/2009/10/

Pour obtenir ce résultat, on n’a pas seulement eu recours à l’ordinateur. On a aussi utilisé l’activité humaine. En effet, un ordinateur, si puissant soit-il, ne peut déterminer ce qui est beau ou intéressant.

Luis von Ahn, chercheur à la Carnegie Mellon University, se penche sur cette question depuis des années. Il est persuadé par l’idée que les ordinateurs sont limités et qu’ils ne pourront jamais effectuer certaines tâches qui sont simples pour le cerveau humain. C’est lui qui a lancé le fameux ESP game, qui permettait d’attribuer des mots-clés à des images. Deux partenaires, mis ensemble par hasard, doivent attribuer des mots-clés (ou tags) à des images. Si les mots-clés des deux joueurs correspondent, des points sont attribués à chacun. Les joueurs cumulent les points de toutes les parties qu’ils jouent: à celui qui en obtient le plus. Attention, le jeu est plus addictif qu’il en a l’air. Google a repris ce jeu et l’a intégré à Google Images sous la forme du Google Image Labeler:

http://images.google.com/imagelabeler/

Luis von Ahn a continué de développer ses idées à travers d’autres jeux. On les trouve tous maintenant sur un site intitulé GWAP: games with a purpose.

Gwap

http://www.gwap.com/

Il s’agit de véritables jeux où les participants accumulent des scores: les points glanés dans les différents jeux s’additionnent. Le but de ces jeux est d’ajouter aux documents soumis différentes métadonnées. On retrouve donc l’ESP Game. Avec Tag a Tune, les deux joueurs écoutent un morceau de musique qu’ils doivent caractériser. En lisant les mots-clés de l’autre, chaque joueur doit essayer de deviner si tous deux écoutent le même morceau. Le but est donc d’attribuer des tags à des morceaux de musique. Verbosity offre tour à tour à chacun des joueur un terme: l’un doit le caractériser, tandis que l’autre le devine. Visiblement, il s’agit d’établir des associations de termes. Avec Squigl, chacun des partenaire doit entourer ce qui correspond à un terme donné sur une image: le jeu indique “ours” et le joueur doit entourer l’endroit où il voit un ours sur l’image. Enfin Matchin (le plus addictif selon moi) présente à deux partenaires deux images: chacun doit indiquer celle qui lui plaît le plus. Si les deux joueurs choisissent la même image, ils reçoivent des points. S’ils optent pour la même photo plusieurs fois de suite, le nombre de point obtenus par tour augmentent. Le but de ce jeu est de mettre en avant les images de bonne qualité et d’écarter celles qui sont moins belles (comme les photos prises en fin de soirée et postées sur Facebook). On retrouve l’interestingness de Flickr.

Gwap

Non seulement ces jeux sont utiles, car ils permettent d’indexer des masses énormes de documents, mais ils sont aussi basés sur la collaboration plutôt que sur l’opposition. A l’heure des jeux de type “Kill them all”, cela vaut la peine d’être mentionné.

Le site GWAP prétend aussi qu’il peut deviner votre genre avec 10 paires d’images où il faut dire celle que l’on aime le mieux. Mais ça ne marche pas à tous les coups.

Luis von Ahn est aussi le créateur du Captcha, ce système anti-spam bien connu, évitant aux robots de placer des commentaires sur les blogs ou d’envoyer des messages par formulaire Web. Il l’a conçu dans le même esprit d’utilité et de contribution du cerveau humain à des projets informatiques. Le Captcha soumet deux images représentant des termes écrits que l’utilisateur doit retranscrire. Ces deux termes proviennent de la numérisation de livres ou de journaux. L’un des deux termes a été reconnu correctement par le programme de reconnaissance de caractères (OCR), alors que l’autre a été mal lu (le logiciel d’OCR étant capable de reconnaître ses erreurs). L’utilisateur ignore lequel des deux mots est correcte. S’il transcrit correctement le terme qui a été lu de manière juste par l’ordinateur, le système part de l’idée que le second est aussi juste. Les couples de terme sont soumis plusieurs fois et si on obtient toujours le même résultat, la lecture “humaine” est validée. Ce système est utilisé pour améliorer la numérisation d’ouvrages qui sont intégrés aux Internet Archives. Le nombre de transactions quotidiennes passant par le Captcha étant de 200 millions, l’amélioration de la numérisation est donc réelle.

Captcha

http://recaptcha.net/

Internet Archives

Page de Luis von Ahn sur le site de la Carnegie Mellon University

A travers ces exemples remarquables, comme dans les réseaux sociaux, on sent l’imbrication de plus en plus grande entre cerveau électronique et cerveau biologique. Chacun de ces cerveaux a ses propres limites: les puces ont des puissances de calcul qui dépassent largement tout ce que nos neurones peuvent faire, mais elles ne peuvent exécuter que les tâches qui ont été programmées. Le cerveau humain a des compétences que jamais un ordinateur n’aura: imagination, conscience. En revanche, il peut utiliser les machines pour augmenter certaines fonctions: on songe en premier lieu à la mémoire.

Cette proximité toujours plus grande entre l’homme et la machine doit nous faire un peu réfléchir. Il devrait toujours revenir à l’homme de déterminer le partage des tâches. Et cela passe par une connaissance du fonctionnement d’un ordinateur auquel on a tendance à accorder trop d’intelligence et donc le développement, à large échelle, d’une culture informatique à ne pas confondre avec des compétences dans l’utilisation de l’informatique.

Des photos qu’on peut utiliser … enfin

De nombreuses personnes, notamment des blogueurs, utilisent des moteurs de recherche d’images pour trouver des illustrations. Mais c’est très frustrant de trouver de belles images et de ne pas pouvoir les utiliser (ou de ne pas être sûr de pouvoir). Google vient d’ajouter une nouvelle fonctionnalité à son moteur de recherche d’images qui peut s’avérer très utile. Dans les recherches avancées, on peut désormais filtrer des images selon le type de licence:

  • sans tenir compte des licences
  •  réutilisation autorisée
  • réutilisation à des fins commerciales autorisée
  • réutilisation avec modification autorisée
  • réutilisation avec modification à des fins commerciales autorisée

Le moteur recherche les images qui sont indexées selon les licences Creative Commons, qui sont sous licence GNU ou dans le domaine public. Bien entendu, il faut tout de même vérifier si la licence est correcte quand on veut utiliser l’image. Mais au moins, on évite de se retrouver devant des images tentantes, mais qu’on a pas le droit d’utiliser.

Google Search
http://images.google.ch/advanced_image_search?hl=fr