fil-educavox-color1

Article publié par Olivier Ertzscheid, Enseignant-chercheur (Maître de Conférences) en Sciences de l’information et de la communication, IUT de la Roche sur Yon. Département Infocom en Creative Commons sur Affordance.info le 02 juillet 2013.
Accès à l’article.
 
 
Deux vieilles questions déjà largement discutées et débattues notamment sur ce blog. Celle de la neutralité des algorithmes. Et celle de la pertinence des profils humains. Société du contrôle et #toussa. Mais en plein coeur de l’affaire #Prism (écoutes de la NSA, voir mon analyse ici) et au hasard de quelques autres lectures glanées sur le web, je voudrais rappeler l’intérêt de ces questions, et les remettre en perspective.
 
Il est un fait établi que la neutralité des algorithmes est un pur #bullshit.
 
Plus exactement, un algorithme (le programme et les formules logico-mathématiques qui le constituent) est neutre dans sa conception. Mais il ne l’est jamais dans son application (par exemple le principe du pagerank qui postule qu’un lien vaut un vote mais qui institue de fait - et de manière d’ailleurs parfaitement logique dans la philosophie qui a prévalu lors de la conception dudit algorithme - que certains liens ont plus de poids que d’autres). A cela il faut rajouter les usages qui, dès que le principe de l’algorithme est - même en gros - connu, prennent un malin plaisir à le subvertir ou à le détourner (Google Bombing ou Blak Hat SEO). Du coup pour limiter les détournements tout autant que pour préserver une représentation homogène du monde, les ingénieurs ajoutent des dizaines ou des centaines de "variables" et font évoluer l’algorithme. Et quand l’ajout de variable de suffit pas, ils mettent la main sous le capot et virent ou ajoutent ou changent le classement de certaines pages manu militari. Donc non non non et NON, les algorithmes ne peuvent pas être neutres. Le fantasme de la neutralité des algorithmes est très proche de celui d’une dictature éclairée. Si on veut la neutralité, il faut une opacité totale sur le mode de calcul appliqué. Mais si on a une opacité totale, nul ne peut plus être garant de cette neutralité que ceux qui mettent en place l’algorithme. On est donc obligé de leur faire confiance. Mais on sait qu’on ne peut pas. Donc on leur demande de nous en dire un peu plus sur les critères utilisés et/ou on essaie - et on arrive en général - à trouver les critères de l’algo. et à partir de là, on entre dans une nouvelle boucle récursive : critères connus => détournements => ajout de variables inconnues => etc. 
 
Et de toute façon comme souvent rappelé ici ou  :
 
"Quand nous consultons une page de résultat de Google ou de tout autre moteur utilisant un algorithme semblable, nous ne disposons pas simplement du résultat d’un croisement combinatoire binaire entre des pages répondant à la requête et d’autres n’y répondant pas ou moins (matching). Nous disposons d’une vue sur le monde (watching) dont la neutralité est clairement absente. Derrière la liste de ces résultats se donnent à lire des principes de classification du savoir et d’autres encore plus implicites d’organisation des connaissances. (...)
Une nouvelle logique se donne à lire. Moins « subjective » que les principes classificatoires retenus par une élite minoritaire (clergé, etc.) elle n’en est pas moins sujette à caution. Les premières étaient douteuses mais lisibles, celles-ci le sont tout autant parce qu’illisibles[2], c’est-à-dire invisibles : l’affichage lisible d’une liste de résultats, est le résultat de l’itération de principes non plus seulement implicites (comme les plans de classement ou les langages documentaires utilisés dans les bibliothèques) mais invisibles et surtout dynamiques, le classement de la liste répondant à la requête étant susceptible d’évoluer en interaction avec le nombre et le type de requêtes ainsi qu’en interaction avec le renforcement (ou l’effacement) des liens pointant vers les pages présentées dans la page de résultat."
 
Manifestation de surface mais à sa manière exemplaire de cette nécessité de rétablir un ordre documentaire du monde y compris pour ceux qui prétendent simplement le gérer de manière algorithmique et en dehors de toute construction ou représentation a priori, le problème auquel se trouvent confrontées les entreprises du classement "Fortune 100" dont les versions "mobiles" des sites web se trouvent subitement "déclassées" suite à un changement dans l’algorithme de Google précisément dédié à l’indexation des versions mobiles. L’effort de pédagogie engagé par Google risque de ne pas être suffisant face aux enjeux économiques (et politico-diplomatiques) de l’affaire et on peut supposer qu’il y aura quelques réajustements manuels pour que chacun retrouve le rang qui lui semble, a priori, dû.
 
La pertinence des profils est la clé algorithmique de la société du contrôle.
 
Méditez bien cette formule. Elle repose sur plusieurs postulats vérifiables. Primo, dès 2007 ici, je décrivais une rupture radicale avec le passage au "World LIFE web" :
 
"Après l’adressage des documents, (...) la principale question que pose ce nouvel âge est celle de la sociabilité et du caractère indexable, remixable de notre identité numérique et des traces qu’elle laisse sur le réseau. (...) De plus en plus de sites de réseaux sociaux « ouvrent » l’immense catalogue des individualités humaines qui les composent à l’indexation par les moteurs de recherche. Ce qui pose nécessairement la question de la pertinence des profils humains."
 
Depuis, pas besoin de vous faire un dessin, on y est jusqu’au cou. Le second postulat vérifiable est celui que démontre admirablement le remarquable article de l’excellentissime Jean-Marc Manach : "Pourquoi la NSA espionne aussi votre papa (#oupas)." Donc vous allez le lire ... ça y est ... et vous revenez.
 
Et vous avez compris une chose essentielle : de la même manière que la rupture technologique introduite par Google dans le monde du search reposait sur l’idée folle qu’il n’était plus besoin de s’intéresser au contenu des pages pour les classer par pertinence mais que leur environnement externe (les liens pointant vers elles) suffisait, de la même manière les tendances actuelles - non pas seulement de l’espionnite aïgue qui agite nos gouvernants mais aussi et surtout l’ingénierie à l’oeuvre derrière l’ensemble des fonctionnalités sociales présentes sur le web - les tendances actuelles des réseaux sociaux et des moteurs postulent que davantage que le contenu de nos profils ce sont les métadonnées qui les englobent qui sont les facteurs clé d’une mise en calculabilité des individus pour déterminer la pertinence de tel ou tel profil au regard de telle ou telle visée politique ou commerciale.
 
Le troisième postulat veut que la société du contrôle politique et la société du contrôle de la consommation (c’est à dire du marketing, du "désir", du "pulsionnel") soient en gros la même chose, ou en tout cas qu’elles reposent sur les mêmes stratégies (de contrôle donc). Là vous me ferez grâce d’une thèse en philosophie politique sur le sujet, je suis sûr qu’on se comprend parfaitement.
 
Ces trois postulats nous amènent à la conclusion logique énoncée plus haut : "La pertinence des profils est la clé algorithmique de la société du contrôle." #cqfd
 
Big METAdata : love le gras.
 
Les réseaux sociaux stricto sensu (en terme d’ingénierie) ont l’inconvénient d’avoir quelques années de retard sur les moteurs de recherche stricto sensu. Mais ils ont l’énorme avantage de pouvoir reprendre à leur compte les métriques de ranking établies par les premiers en les adaptant à ce nouvel objet documentaire que sont nos profils, moyennant quelques ajustements et perfectionnements. D’autant que si les permiers (moteurs de recherche donc) durent initialement faire face à l’indigence des métadonnées disponibles et à la négligence que nous mettions tous à en produire (remember Pamela Anderson), les seconds (réseaux sociaux) peuvent s’appuyer sur l’immensité de ces "Big Metadata" qui sont à nos profils ce que le gras est au jambon : si y’en a pas c’est fade, t’as du mal à l’enlever complètement, ça laisse des tâches/traces le plus souvent indélébiles, plus t’en mets et plus tu fais des bénéfices sur le prix au kilo au détriment du consommateur, et tout le monde t’explique qu’il aime pas ça mais tout le monde en mange en douce.
 
1 milliard de terroristes diabétiques.
 
Et donc dans l’immeuble au 1 milliard de voisins qu’est Facebook, nous habitons tous à moins de 5 portes de Justin Bieber (et ça intéresse grave son producteur), de Mohammed Merah (et ça intéresse grave la DCRI), de Coca-Cola (et ça intéresse grave les annonceurs), de Bernard Tapie (et ça intéresse grave Christine Lagarde), du Crédit Lyonnais (et ça intérese grave Bernard Tapie), de Al-Quaïda Yemen (et ça intéresse grave la NSA), de notre maîtresse (et ça intéresse notre femme), et de tout un tas d’autres gens (et ça intéresse personne). Et la question est : "quel est le profil qui sera le plus pertinent pour moi dans un contexte de tâche donné ?" soit l’équivalent exact du problème qui fonde une partie des travaux théoriques des sciences de l’information dans leur approche des questions de la recherche documentaire (information retrieval) : "quel est le profil que sera le plus pertinent pour moi dans un contexte de tâche donné ?"
Ce qui donne les questions suivantes :
  • quels sont les profils les plus intéressants pour la NSA quand celle-ci tente d’identifier des réseaux terroristes ?
  • quels sont les profils les plus intéressants pour l’annonceur Coca Cola quand celui-ci tente d’identifier de nouveaux leads ou prospects susceptibles d’ingérer une boisson noire, qui pique et sucrée comme un diabétique en fin de vie ?
  • quels sont les profils les plus intéressants pour Monsieur Jean-Claude Dusse quand il tente d’identifier des réseaux de lingerie fine regorgeant de nouveaux leads ou prospects susceptibles de vous voyez bien ce que je veux dire bande de petits dégoûtants
  • etc.
Sauf qu’avec l’effet petit monde, quand tout le monde est voisin de tout le monde, Mohammed Merah intéresse autant Coca-Cola que la NSA. Et comme je suis autant voisin de l’un que de l’autre, je suis un diabétique en puissance (ça je m’en doutais avant) et un terroriste en puissance (ça je m’en doutais un peu moins).
Et comme la NSA et Coca-Cola se doutent tous deux vaguement que j’ai plus de chances de vider une canette dans mon frigo que de déposer une bombe dans une école, ils s’aperçoivent qu’il perdent tous les deux du temps. Alors ils ont recours aux métadonnées (big metadata), c’est à dire à une sphère documentaire externe au document lui-même (c’est à dire "moi") pour mieux qualifier, documenter mon profil, c’est à dire pour rétablir de la distance au sein de l’effet "petit monde". Pour qu’au lieu d’un graphe patatoïde agrégeant une immensité de points, émergent et se détachent des communautés, puis des profils individuels, sur la base d’une critériologie discriminante essentiellement fournie par "nos" métadonnées.
 
 
(Copie d’écran extraite de cette excellente vidéo pédagogique sur l’analyse et la visualisation d’écoutes téléphoniques)
 
Qui trop embrasse mal étreint et qui trop précise mal rappelle.
 
Poussons un peu plus loin l’analogie avec les critères standards de l’évaluation des résultats d’une recherche documentaire, c’est à dire le taux de rappel* et le taux de précision**.
 
(*Taux de rappel : ratio entre le nombre de documents pertinents trouvés lors d’une recherche documentaire et le nombre total de documents pertinents existant dans le système. // **Taux de précision : ratio entre le nombre de documents pertinents trouvés lors d’une recherche documentaire et le nombre total de documents trouvés en réponse à la question.)
 
La neutralité des algorithmes devrait / pourrait permettre de garantir que ce soit le taux de précision qui soit mis en avant dans une logique de recherche. Or les logiques attentionnelles et les économies liées ("attention economy" et "intention economy") ont pour enjeu et pour fondement de surestimer et de sur-valoriser le taux de rappel, seul capable de faire tourner le coeur des ingénieries de la recommandation, c’est à dire de produire un "bruit" contextuel limité mais suffisant pour nous aiguiller vers d’autres profils / produits et d’élargir ainsi le spectre de nos potentialités d’achats ou de contacts, un taux de rappel seul capable de rétablir cette "distance" nécessaire pour mieux identifier nos comportements à l’écart de la proxémie contrainte qui caractérise l’effet petit monde des environnements numériques fermés ; un taux de rappel capable d’embrayer sur des logiques de "longue traîne" en redonnant vi(e)sibilité à des profils / produits / pages que nous n’aurions pas vocation à croiser par l’intermédiaire de nos seules requêtes. La marge de négociation est dès lors extrêmement fine entre une sérendipité "calculée" qui consituerait un élargissement objectif et intéressant et un téléguidage orienté de nos choix fonctionnant comme une aliénation à des logiques purement marchandes ou économiques.
 
Photo Credit : zigazou76 via Compfight cc
 
Dernière modification le vendredi, 03 octobre 2014
An@é

L’association An@é, fondée en 1996, à l’initiative de la création d’Educavox en 2010, en assure de manière bénévole la veille et la ligne éditoriale, publie articles et reportages, crée des événements, valorise les innovations, alimente des débats avec les différents acteurs de l’éducation sur l’évolution des pratiques éducatives, sociales et culturelles à l’ère du numérique. Educavox est un média contributif. Nous contacter.