Comment s’informer sur Internet (au sens : acquérir des connaissances vraies et pertinentes) ? La question devrait être résolue depuis longtemps tant il existe de sociétés, consultants, logiciels, qui proposent de nous initier aux délices de la veille sociétale ou stratégique, avec bases de données, cartographie sémantique, knowledge management, crawling, data mining, curation et autres techniques qui mériteraient un bon benchmarking…
Ou une bonne explication pour le commun des mortels
Ou une bonne explication pour le commun des mortels
DONNÉES SUR LES DONNÉES
Par ailleurs, qui n’a un jour suivi une formation sur l’emploi des métamoteurs et des agents intelligents, qui n’a au moins lu un texte sur les opérateurs booléens (qui relient plusieurs des mots d’une requête par des termes comme et, ou, sauf, etc) ?
Par ailleurs, qui n’a un jour suivi une formation sur l’emploi des métamoteurs et des agents intelligents, qui n’a au moins lu un texte sur les opérateurs booléens (qui relient plusieurs des mots d’une requête par des termes comme et, ou, sauf, etc) ?
Parmi ceux qui liront ces lignes, il y a sans doute quelques uns des milliers de professionnels de la quête d’information, et au minimum des lecteurs qui passent plusieurs heures par semaine à veiller face à un écran.
Ils ont sans doute trouvé gratuitement des outils de collecte, traitement et visualisation, certains de très bon niveau en sciences cognitives, linguistique, informatique, etc..
Face aux milliards de pages d’information potentielle sur le Web visible (et ne parlons pas du Web dit invisible que certains estiment plusieurs centaines de fois plus important), il faut confier à des algorithmes et à des organisations spécialisées des tâches que le cerveau accomplit seul dans un cadre de documentation « traditionnelle ». Ce peut être : trouver des sources, interpréter en catégories communes des textes, paroles et images, classer, synthétiser, filtrer ce qui est redondant, représenter (parfois graphiquement) le résultat de sa recherche, etc.
Souvent, l’utilisateur au quotidien a des besoins moins sophistiqués ; il n’a pas à détecter très vite des signaux rares et faibles enfouis sous d’énormes quantités de données. Il recherche une information factuelle ou un éclairage sur un thème évoqué par les mass media. Il veut le plus souvent savoir comment taper les bons mots clés, identifier les sources fiables et ne pas perdre trop de temps. Chacun tend d’ailleurs à inventer sa propre heuristique : trucs et astuces, bonnes adresses, démarches de collecte et de vérification, etc.
Mais, même pour des besoins comme ceux-là, il s’agit de naviguer dans l’information, dans des flux de données aux contours instables et mal fixés, au lieu d’aller chercher des objets (de livres, des articles de revue…) qui contiennent quelque part un contenu avec un auteur bien identifié et sous une forme ayant date certaine (celle de l’impression, par exemple).
Ainsi comment trouve-t-on à l’information sur Internet ? Quel trajet mène à une page précise ?
En termes savants : à partir de quelles métadonnées (information sur l’information) parvient-on aux sources pertinentes, les bons documents ?
LA RECHERCHE COMME TRAJET
Dans le monde numérique, trouver l’information ne consiste pas à repérer l’emplacement de son contenant (un livre p.e.) comme sur une carte, mais à suivre un trajet. Les actes que nous accomplirons - taper un mot, cliquer) provoquent des déplacements dans l’information. C’est pourquoi avons souvent dit que nous avions besoin de portulans. Pour mémoire, un portulan est une carte destinée à la navigation et utilisée à l’ère des Grandes Découvertes maritimes : le portulan indique les vents, les courants..., et sert bien davantage à choisir une direction pour parvenir à son but, plutôt qu’à évaluer la dimension des continents, l’emplacement des villes et des provinces, comprendre le relief,etc.
Comment atteindre son but inconnu (non pas les Indes fabuleuses, mais la source de l’information vraie et utile) ?
Il n’y a que trois réponses à cette question. :
- Soit cette page vous est indiquée et recommandée par quelqu’un.
Ainsi, ce quelqu’un vous a donné cette adresse en vous faisant parvenir un lien dans un courriel. Ou vous l’avez lue et suivie dans une lettre électronique à laquelle vous êtes abonné. Ou vous l’avez relevée dans un livre ou un journal. Ou vous avez cliqué sur un lien hypertexte au cours d’une de vos navigations. Ou, et c’est de plus en plus souvent le cas, votre réseau social vous l’a signalé : ainsi, sur Twitter quelqu’un vous a recommandé un lien (que vous retwiterez peut-être à votre tour) : vous suivez cette personne et lui accordez un minimum de confiance.
Quelques fois,notamment sur Twitter, on retient à la volée une adresse où l’on se promet de revenir plus tard et on la recommande à d’autres en pariant qu’elle en vaudra la peine lors d’une future lecture plus attentive. Avec les risques de contagion du faux pu de conformisme que cela suppose.
Quelques fois,notamment sur Twitter, on retient à la volée une adresse où l’on se promet de revenir plus tard et on la recommande à d’autres en pariant qu’elle en vaudra la peine lors d’une future lecture plus attentive. Avec les risques de contagion du faux pu de conformisme que cela suppose.
Mais dans tous les cas, ce quelqu’un a délibérément souhaité vous envoyer sur cette page précise. Il a ainsi agi soit parce qu’il a une forme quelconque d’intérêt - fut-ce une motivation idéologique ou narcissique (briller) - à ce que vous y alliez, soit parce qu’il pense enrichir son propre texte en l’accréditant. Ainsi, lien peut faciliter la compréhension du texte, en prouver le sérieux, en faciliter la lecture en déléguant certaines définitions ou certains rappels à d’autres sources,…
- Soit vous suivez un trajet familier.
Vous avez cliqué sur un de vos favoris. Vous avez recherché ce que dit un site (ou un portail) que vous connaissez et à qui vous accordez un certain crédit : être bien informé, honnête, ou jouir d’un prestige intellectuel, ou être conforme à vos opinions, ou au contraire être très représentatif d’un courant d’idées ou d’une institution dont vous voulez connaître les réactions.
Le plus souvent, vous avez suivi une simple routine. Par exemple, vous avez coutume de visiter tel site à intervalle régulier et de vous tenir au courant de ses nouveautés et évolutions. Ou encore, vous pensez que vous gagnerez du temps en commençant par un certain type de documents qui auront déjà fait une synthèse sur le sujet et vous dirigeront dans vos recherches ultérieures.
Ainsi, beaucoup commencent systématiquement une recherche sur un sujet par une visite à un site dictionnaire, ou à une encyclopédie comme Wikipedia, ou à un site spécialisé dans l’actualité du domaine. En réalité cela équivaut à la situation précédente (quelqu’un vous a dirigé), mais précédée d’une sollicitation ou vérification de votre part, disons d’une démarche active de quête ou, pour le moins, d’une exposition délibérée.
Variante : vous suivez un flux RSS, vous connaissez un site de curation qui vous présente une sorte de revue de presse...
- Soit vous faites appel à ce que nous nommerions une « machine à interpréter », un opérateur non humain tel un robot de recherche ou un métamoteur. Celui-ci vous a proposé des réponses à une demande formulée sous forme de mots-clefs.
Dans la plupart des cas, encore, ces réponses vous ont été proposées dans une très longue liste de dizaines de pages dont vous ne regarderez que la ou les premières. D’une manière ou d’une autre un algorithme a indexé selon ses critères un nombre considérable de sources potentielles, et ordonné les réponses selon d’autres critères qui lui sont propres. Certains de ces critères sont officiellement « secrets », pour ne pas rendre la tâche trop facile aux tricheurs.
En clair, le résultat dépend de règles d’indexation et de hiérarchisation qui, elle-même, reflètent des choix en amont et gouvernent les règles de classement. L’immense pouvoir de diriger l’attention de millions d’internautes dépend d’un code plus ou moins explicite.
STRATÉGIES DE CONFIANCE
Pour le dire autrement et faire une comparaison avec les déplacements géographiques, si vous êtes arrivés quelque part, c’est que :
- vous avez été à un endroit où il y avait beaucoup de panneaux indicateurs, et éventuellement, décidé d’en suivre un qui vous a mené à un autre, etc. Vous croyez une inscription.
- quelqu’un vous a renseigné. Vous croyez une personne.
- vous avez confié le travail à votre moteur de recherche (équivalent à un GPS des mots). Vous croyez un algorithme et, au final, une machine.
Les trois méthodes, recommandation, habitude et enchaînement, interprétation par un algorithme se mêlent souvent de fait. Par exemple, un message peut vous « recommander » un lien ou un texte en vous signalant que les gens qui se sont intéressés au même livre A que vous achètent souvent le livre B. Ou encore un site vous « construit » une revue de presse numérique en fonction de votre profil supposé ou des articles les lus ou les plus recommandés par les internautes s’intéressant au même domaine que vous.
Sur Internet, le succès tend à aller au succès. Voir le système dit du « page rank » de Google qui privilégie les sites les plus populaires et considère comme les plus pertinentes (donc les plus dignes d’être classées en haut de liste, donc les plus susceptibles d’attirer de nouveaux visiteurs), les réponses qui ont reçu le plus de votes d’autres visiteurs. Mais les recommandations de Facebook tendent aussi à favoriser les produits « mainstream ».
Premier constat : pour une part, la quête de l’information dépend de facteurs psychologiques, de croyance ou de confiance : confiance en une source habituelle, crédit accordé à l’indication que vous fournit tel ou tel, foi en la communauté des internautes. Cette confiance « démocratique » s’exprime par exemple dans l’usage d’une encyclopédie de type Wikipedia : il faut faire le pari que les « bons » (les compétents qui désirent diffuser le savoir pour l’amour du savoir et rectifier les erreurs) sont plus nombreux et plus obstinés que les « mauvais » (désinformateurs, mésinformateurs, rédacteurs intéressés cherchant à faire de la publicité sous couvert d’un texte informatif). Et surtout qu’ils gagnent à la fin.
Second constat : pour accéder à l’information, outre cette confiance, nous dépendons de « prothèses sémantiques », dispositifs humains ou numériques destinés à diriger notre attention vers telle ou telle information, selon des règles parfois obscures.
FORMES DU CONTRÔLE
Au stade actuel, tant que le Web sémantique n’est pas encore une réalité, l’essentiel se fait avec des mots. Prenons un exemple quotidien. Que s’est-il passé quand vous avez lancé une requête sur votre moteur de recherche favori ? En réalité vous avez recueilli les fruits d’un travail fait par des robots qui ont exploré le cyberespace, suivi des liens de site en site pour découvrir de nouvelles pages, y ont prélevé des vocables et les ont indexés dans d’immenses bases de données en perpétuel renouvellement. Ils savent d’où provient chaque occurrence du terme et décident où vous envoyer prioritairement. Il y ont créé une hiérarchie.
Leur pouvoir de faire apparaître dans un certain ordre instaure un contrôle au second degré puisqu’il ne s’agit pas seulement de suggérer à quoi il faut penser ou ce qui est important, mais de fournir les critères pour juger de ce qui est important ou vraisemblable.
Mais qui dit pouvoir dit contre-pouvoir. Aux stratégies de contrôle qui président à la conception de l’algorithme de recherche et indexation, s’opposent les stratégies astucieuses : celles des petits malins ou des tricheurs qui exploitent les caractéristiques des moteurs pour améliorer artificiellement le référencement de leur site. Ainsi, la possibilité d’être visible, donc d’exister dans l’opinion, ne dépend plus de moyens financiers, ceux qui permettent d’acheter de la publicité (encore que, sur Internet, un bon investissement financier permet d’acheter de la visibilité et un bon « rang »), mais il reflète la capacité à exploiter les règles invisibles du jeu. Des recettes circulent ainsi, reflétant une connaissance plus ou moins informelle des trucs qui marchent : utiliser certains mots clés à certains emplacements de sa page, créer de multiples liens externes, truffer les « balises méta » (les informations que « voient » les moteurs de recherche, mais pas les visiteurs humains) de mots clefs ayant un fort pouvoir attractif.
Quelqu’un a un jour comparé Internet à une bibliothèque mal rangée où il y aurait des dizaines de catalogues concurrents, mais où, dans certains rayons, des gens lâcheraient des ballons et joueraient de la trompette pour attirer votre attention. Mais le phénomène des réseaux sociaux complique les choses : vous passez devant des tables où il y a des voisins ou des copains supposés qui vous suggèrent d’aller voir ici ou là. Certains d’entre vous décident même de ne plus se fier qu’à ces familiers pour se renseigner.
Une telle situation ne va pas sans suggérer des stratégies à certains.
TRICHEURS ET ALTRUISTES
La stratégie du tricheur se manifeste par exemple à travers deux phénomènes folkloriques : le cloaking et le Google bombing. Le premier consiste en une sorte de maquillage ou de camouflage de son site. Il présentera un aspect différent au visiteur ordinaire et à celui qui est repéré comme important ou prescripteur (tel un robot d’indexation). Ainsi, un site cloaké peut se présenter d’une façon adaptée à son visiteur : lui apparaître dans sa langue, lui adresser une publicité spécifique, lui cacher certaines informations s’il est soupçonné d’être hostile ou indiscret, mais il peut aussi améliorer le référencement par des méthodes douteuses. Dans ce dernier cas, on peut comparer le site « cloaké » à un hôtelier qui propose une chambre ou un repas de luxe à un journaliste ou à inspecteur du guide Michelin en baissant le prix et en feignant de traiter ainsi tous ses clients.
Le Google bombing consiste à exploiter une des caractéristiques du moteur de recherche le plus connu. Ce dernier considère, pour dire les choses de façon très simplifiée, que, plus un site est « populaire », et notamment plus d’autres sites ont créé un lien qui pointe vers lui, mieux il doit être classé. En créant ou en réorientant délibérément des sites qui pointent tous dans la même direction, il est ainsi possible donner beaucoup de poids artificiel à un site, qui sera bien classé et attirera des milliers de visiteurs. Une des utilisations amusantes de cette technique consiste à faire en telle sorte que l’internaute qui recherche des termes comme « miserable failure » ou « magouilleur » tombent sur le nom de deux présidents de la République.
Il existe d’autres techniques pour tromper les robots : multiplication de mots clefs invisibles au visiteur humain (écrits en couleurs peu visibles, ou en très petit, ou à un emplacement discret…), pages satellites, redirections trompeuses…
Les blogs ont suscité d’autres recettes : par exemple, celle qui consiste à faire déposer énormément de commentaires portant un texte tout à fait banal (« Excellent article ! », « Je vous approuve ») sur les blogs d’autrui, mais en signant avec sa propre adresse URL, ce qui équivaut à créer un lien qui sera référencé.
Ou encore ces amis Facebook ou ces followers Twitter qui renforcent le prestige d’une adresse (et donc le poids de ce qu’elle recommande) sont en réalité des robots mercenaires loués. Ces gens n’existent pas, tout simplement.
De façon générale, il est relativement facile de tricher sur les réseaux sociaux pour une raison évidente : vous pouvez facilement falsifier des éléments de votre identité (celui qui affirme ou recommande) voire multiplier de fausses identités. Sur Internet personne ne sait si vous êtes une blogueuse syrienne menacée par la police ou un universitaire quadragénaire occidental.
Certes, les tricheries sont répréhensibles et celui qui les emploie risque de se retrouver sur une liste noire. Il ne faut pas non plus en déduire a contrario que tout succès d’un blog ou d’un site résulte d’une manœuvre machiavélique ou de techniques malhonnêtes. Internet est également riche en surprises, comparables au succès de certains livres inconnus et négligés par la critique qui fonctionnent par pur bouche à oreille.
Et un nombre incroyable de braves gens s’emploient à vous faire part de leurs découvertes, de leurs tuyaux, de leurs expériences vécues, etc. pour vous aider. Ils ne cessent de vous fournir gratuitement de l’information qu’ils croient vraie et utile pour vous.
CONCLUSION
L’ensemble des procédés de validation d’une information a migré de l’amont à l’aval. Dans l’univers du livre et du journal, des dispositifs d’accréditation visaient à vérifier la valeur du texte figé soit avant publication, soit juste après, par la critique ou l’évaluation des professionnels qui en détermineraient (en partie) la visibilité (présence dans les bibliothèques ou les librairies, reprise par des citations et commentaires). Or, sur Internet, la hiérarchie et la validation de l’information se font après publication, c’est-à-dire apparition sur la Toile.
Et le résultat dépend de l’interaction des trois stratégies que nous avons évoquées : stratégies de contrôle des moteurs de recherche et prescripteurs, stratégies astucieuses des tricheurs qui exploitent les règles formelles du système, stratégies altruistes et collaboratives de tous ceux qui, sur les blogs, les forums, les wikis, tentent d’aider leurs contemporains face aux trois dragons qui les menacent sur Internet : désinformation, surinformation, mésinformation.