La fin des données et le début de l'homme programmé. - Educavox, Ecole, pédagogie, enseignement, formation

samedi, Aoû 15 2015

Technologies

Écrit par An@é

Publié en Creative commons par Olivier Ertzscheid le 14 août 2015 : http://affordance.typepad.com//mon_weblog/2015/08/fin-donnees-debut-homme-programme.html

Un article du blog Nikopik tourne actuellement pas mal dans mes flux Facebook et Twitter : "Une analyse de trafic réseau de Windows 10 dévoile l'incroyable étendue de l'espionnage mis en place par Microsoft." L'article reprend en fait une étude réalisée par un informaticien tchèque, étude elle-même initialement chroniquée dans le Guardian et dans Ars Technica.

S'il est vrai que le nouveau Windows 10 a déjà fait l'objet de pas mal de critiques - notamment autour de son "identifiant publicitaire unique" - dont je m'étais moi-même fait l'écho dans mon billet sur le cpaitalisme de la surveillance, j'avoue que la lecture de celui de Nikopik a achevé de me laisser coi. J'écrivais d'ailleurs sur Facebook, juste après l'avoir parcouru :

6a00d8341c622e53ef01b7c7bef4d7970b

En gros, et y compris pour le faible pourcentage de geeks ou d'ultra-sensibles aux questions de vie privée qui auront pris le temps de régler correctement leurs paramètres de confidentialité et/ou d'installer quelques patchs visant à juguler l'hémorragie, le volume et la nature des données qui seront tout de même collectées et stockées est littéralement hallucinant.

Reste à savoir quel sera l'usage qui sera fait de ces données et surtout l'intérêt d'une telle collecte à une telle ampleur et avec un tel systématisme, une telle exhaustivité. A première vue, l'objectif est clair, toujours "mieux nous connaître" pour "mieux nous cibler" et pour cela toujours capter davantage de données pour maximiser le rendement publicitaire associé à la cible que nous sommes tous devenus au travers - entre autres - de notre "identifiant publicitaire unique".

Reste, toutes proportions gardées avec les pratiques de surveillance massive de la NSA et d'autres agences, reste la question du traitement des données collectées : est-il encore possible, pertinent, à une telle échelle ? La réponse à cette question est connue : oui et non. Non l'analyse systématique "a priori" et dans une certaine mesure "en temps réel" n'est plus du tout possible, y compris avec la puissance de calcul dont disposent Microsoft ou la NSA. Mais oui, il est en revanche possible d'opérer une analyse segmentée et à rebours : si tout est collecté, il est alors possible d'aller farfouiller à la recherche de diverses choses, à partir d'une requête ou d'une série de requêtes initiales. Ainsi, le fait de collecter (je schématise un peu) l'ensemble des conversations téléphoniques de la planète est inexploitable, sauf si l'on se met, rétrospectivement, à rechercher les occurrences de tel ou tel mot-clé dans l'ensemble de ce volume d'information. C'est cette logique que je décrivais déjà sur un tout autre sujet - les processus d'indexation à l'échelle de grand corpus - en expliquant, par exemple dans le cadre de l'archivage par la bibliothèque du congrès de l'ensemble des tweets publics, qu'il n'était plus possible de choisir et de sélectionner en amont les informations ayant une valeur patrimoniale ou sociétale et qu'il fallait donc "tout prendre" pour ensuite, rétrospectivement, permettre d'extraire de cette gangue les informations ayant une valeur collective patrimoniale. Rien de neuf sous le soleil donc, au moins pour ce qui est de la nature du processus de collecte, qui ne peut plus se faire autrement que par une saisie exhaustive permettant ensuite différentes analyses et extractions rétrospectives.

En revanche, en inversant ainsi la charge de la preuve, ou plus exactement en faisant dépendre cette preuve non plus de comportements avérés et observables mais d'un faisceau complexe de recoupements opérés a posteriori et sur la base d'éléments largement décontextualisés ou très difficilement recontextualisables (je peux utiliser le mot bombe sans être un terroriste), et en faisant dépendre ces recoupements eux-mêmes d'une supposée rationalité et objectivité calculatoire relevant de différents algorithmes de fouille de texte ou de data mining, on en arrive hélas "naturellement" à la situation dans laquelle l'idéologie déjà perverse du "si vous avez quelque chose à cacher c'est que vous êtes coupable" se transforme en Orwellienne "nous serons toujours en capacité de prouver à un moment donné que vous vous êtes rendu coupable de quelque chose". Mais là encore la situation est connue et régulièrement - et vainement ... - débattue, comme lors de la récente adoption du projet de loi renseignement en France.

Mais revenons à Windows 10 et à sa collecte massive. S'il est encore, du moins le suppose-t-on, naturellement possible d'améliorer et d'optimiser le ciblage et la traque publicitaire qui fondent aujourd'hui une partie - ou la totalité - du business model de certaines de ces firmes, la crise en termes d'image et de réputation que cela engendre, et la difficulté liée à la puissance de calcul - et de stockage - nécessaire pour en améliorer le rendement, pose tout de même la question de l'intérêt d'une telle volumétrie et d'un tel systématisme dans la collecte.

Pour y répondre, il faut revenir rapidement sur l'historique des processus de traçage et de collecte et comprendre la nature de ce qui constitue un changement de paradigme dans les processus de désintermédiation liés au capitalisme de la surveillance.

La carte bleue, le smartphone et le génome.

Une petite partie du comportement humain fut d'abord "connaissable" par le biais de la captation et de la collecte de sa "navigation" (ses requêtes et son historique de navigation pour l'essentiel). On s'aperçut ensuite qu'une plus grand partie du comportement humain (et des ses préférences en terme de consommation) pouvait être connaissable au travers non seulement de sa navigation mais du potentiel sémantique contextuel des différents "documents" qu'il produisait (statuts, tweets, documents de travail, emails, etc.). L'homme est un document comme les autres. Le "traitement documentaire" de l'humain, c'est à dire le traitement de l'humain au travers de la documentation qu'il produit - ou est en permanence incité à produire - devint le principal moyen de mieux en cerner les attentes et les comportements (et donc de les modifier ou de les modeler en retour). On s'aperçoit désormais (en gros depuis l'avènement du Cloud et du Big Data) qu'il est possible de cerner une part encore plus étendue du comportement humain au travers non plus seulement de sa "navigation" et de sa "documentation" mais des données (et métadonnées) qui sont produites et associées à chaque navigation, à chaque interaction en ligne ou dans le monde réel, à chaque documentation produite. Et la prochaine étape sera très probablement celle de la génomique comportementale, c'est à dire la descente et l'essentialisation toujours plus vertigineuse des processus de collecte, d'analyse et de prédictibilité / prévisibilité des comportements.

Ce qui pourrait nous donner le rapide historique suivant :

1er âge : Au départ, seules quelques entreprises (les banques) étaient capables de tracer une toute petite partie de nos comportements (déplacements, consommation) au moyen des marqueurs transactionnels que nous laissions et qui nécessitaient l'activation délibérée d'un dispositif perçu comme moyen de paiement mais déjà pensé comme dispositif de contrôle (notre chéquier puis notre carte bleue donc).

La médiation était assurée par un dispositif technique dédié (la carte bleue) et la désintermédiation se mesurait à l'aune de ce que ce nouvel intermédiaire (les banques) avait ou non latitude de faire en dehors de son champ de compétence initial (c'est à dire garder notre argent et nous permettre d'y accéder par des procédures de retrait).

2ème âge : de nouvelles entreprises (Gafa + télécoms) devinrent capables de tracer l'essentiel de nos comportements (plus uniquement d'achat) et de nos déplacements (plus uniquement physiques) au moyen de traces que nous laissions passivement, sans en avoir conscience, et sans que l'engrammation et la mise en mémoire de ces traces ne nécessite une quelconque activation délibérée ou consciente du dispositif permettant la collecte et le contrôle (d'abord les navigateurs puis notre smartphone et ses différentes applications donc). Progressivement, l'arrivée et la massification - dans les usages particuliers et professionnels - de l'informatique en nuage (Cloud Computing) permit d'atteindre de nouveaux effets de seuils jusqu'ici irréalisables techniquement et impensés socialement.

La médiation était ici assurée par une foule de dispositifs techniques disséminés (navigateurs, OS, applications, smartphones, cookies, fichiers logs, etc.) et la désintermédiation visait à confier à de nouveaux acteurs / opérateurs la possibilité de réguler, de conduire et de superviser nos comportements étendus bien au-delà de la seule sphère transactionnelle des produits et biens de consommation courants.

3ème âge : demain (et déjà un peu aujourd'hui), grâce aux vêtements connectés mais aussi probablement avec la normalisation et l'acceptation sociétale de dispositif implantés de manière sous-cutanée (puces RFID ou autres), les mêmes entreprises que précédemment (banques, gafam, télécoms, assurances) plus celles du secteur des biotechs seront capables de tracer la totalité de nos déplacements, comportements et interactions, sans qu'il nous soit possible de biaiser ou même de simplement désactiver le dispositif de traçage et de collecte.

La médiation est assurée par une forme de corporéité étendue à des dispositifs technologiques (World Wide Wear), c'est à dire pour l'essentiel par notre corps lui-même, et la désintermédiation opère cette fois au niveau des comportements et des modes de socialisation qui lui étaient jusqu'ici attachés. Si notre corps est devenu le dispositif de traçage et de collecte ultime, l'aliénation produite nous contraint soit à nous y soumettre sans mot dire, soit à systématiser des stratégies d'évitement de plus en plus "organiques" : lorsque l'on ne voulait pas être tracé au moyen de sa carte bleue, on pouvait payer en liquide ; lorsque l'on ne veut pas être tracé par nos smartphones ou nos ordinateurs ou "le réseau" on peut les éteindre ou les patcher avec différentes techniques de cryptage ou utiliser des réseaux alternatifs (Tor par exemple). Mais comment et que peut-on faire lorsque l'on ne veut plus que notre corps nous trace ?

L'idée des industries des Big Data et le Graal d'une omniscience des marchés au travers de leur principal thuriféraire (le marketing) est de nous amener à ce point au-delà duquel il devient bien plus financièrement coûteux, cognitivement complexe, socialement castrateur et physiquement impossible pour un individu de refuser la collecte et le traçage plutôt que de s'y soumettre tout en le déplorant. Et elles y sont presque parfaitement parvenues.

Novum Data Organum.

Le changement de paradigme que j'évoquais plus haut est alors le suivant : les "données" ne sont plus un moyen mais une fin. La "data" n'est plus le résultat que produisent nos interactions sociales, documentaires ou commerciales mais elle devient "organique". La "data" est l'avatar moderne et littéral du "Novum Organum" de Francis Bacon. La forme moderne de l'expérimentation qui seule permettrait d'interpréter et de donner forme à l'expérience sensible. A ce titre, les régulières "manipulations" des différentes expériences que mène Facebook sur nos comportements en sont un exemple éclairant (modification du fil d'actu ou la récente affaire des rainbow profile).

La "Data" est ce qui doit permettre de se libérer et d'aller au-delà de ce qui, du point de vue des entreprises précitées, constitue, pour reprendre la théorie des idoles de F. Bacon, les "idoles" modernes. Seules les entreprises capables de collecter et de stocker de tels volumes de données seraient - du moins s'auto-complaisent elles à entretenir cette croyance - capables de s'affranchir de cette série d'illusions et de simulacres au nombre de 4 chez Bacon (idoles de la tribu, de la caverne, de la place publique et de la scène) :

"les idoles de la tribu (idola tribus) : celles qui sont communes au genre humain, qui croit connaître les choses telles qu'elles sont alors qu'il ne les connaît qu'à travers ses organes sensoriels, qui font de l'esprit humain un miroir courbe déformant ses objets ;"

Alors même que l'on connaît les biais de toute analyse ou représentation statistique, la rationalité et l'objectivation supposée constitutive des Big Data permettrait donc aux industries calculatoires d'échapper à la déformation des sens. C'est en tout cas le point de départ de qui ressemble de plus en plus à une idéologie du data-scientisme ou du data-centrisme.

"les idoles de la caverne (idola specus) : celles qui sont propres à l'éducation et aux habitudes de chaque personne, tout individu ayant une vision du monde personnelle à travers laquelle la lumière ne pénètre que de façon obscure et voilée"

Là encore, les industries calculatoires nous offrent la promesse d'un monde dans lequel la Data transcenderait les biais de nos habitus socio-éducatifs. Les débats autour - notamment - de la théorie de la bulle de filtre d'Eli Pariser montrent qu'il n'en est rien, ou en tout cas qu'il serait dangereux d'envisager ces processus calculatoires en dehors de toute notion d'intentionnalité et à l'abri de toute pensée téléologique.

"les idoles de la place publique ou du forum (idola fori) : celles qui viennent de l'usage public du langage, car la vie sociale nous oblige à faire nommer les choses par des porte-paroles, ce qui engendre malentendus et problèmes de communication
les idoles de la scène ou du théâtre (idola theatri) : celles qui viennent de l'abus de l'autorité de la tradition, qui n'est autre qu'une mise en scène, où l'on surestime les vieilles idées et les auteurs célèbres, ce qui rend impossible l'ouverture de l'esprit à des idées nouvelles (ainsi, l'attachement aveugle à la logique d'Aristote et son approche non-empirique de la nature)."

Sur ces deux derniers points, la "datafication" des processus sociaux de reconnaissance, de gratification et d'identification ainsi que celle de la chose politique, même si elle peut être émancipatrice (notion d'Open Data dans les politiques publiques notamment) est en passe d'être entièrement préemptée par des multinationales dont le souci du bien et de la chose publique ne se mesurent qu'à l'aune du profit direct qu'elles sont en capacité d'en tirer.

Et comme le faisait récemment remarquer Dominique Cardon dans une interview à l'Humanité :

"Il y a un messianisme scientiste chez Google, poursuit Dominique Cardon. Ils sont scientistes, comme on l’était au XIXe siècle. » Pour eux, le monde est connaissable mathématiquement, dans chacun de ses atomes. Google espère progressivement découvrir les lois mathématiques qui régissent nos comportements, nos amours, nos joies, notre subjectivité… L’ambition de l’algorithme de Google est, d’approximation en approximation et grâce aux probabilités, de dépasser les humains, en faisant émerger du réel des lois mathématiques. « Et ce qui est étonnant pour un sociologue comme moi qui travaille sur les comportements en ligne, c’est que, souvent, statistiquement, cela fonctionne ! »"

C'est ce renversement, ce changement de paradigme qui interpelle à juste titre le sociologue, que nous sommes en train de vivre. Et qui doit nous conduire à réexaminer à l'aune de la cybernétique - et des processus de feedback - la nature réelle du bouleversement en cours : alors même que le data-scientisme probabiliste dégage du réel des lois statistiques en partie validées par l'observation sociologique, la modification des usages et des comportements qui en découle doit-elle être vue comme l'une des causes ou l'une des conséquences de ces lois statistiques ? Pour l'instant nous nous contentons trop souvent d'accumuler différents effets-cigognes qui nous amènent à confondre causalité et corrélation.

La fin justifie les moyens. Et les données, la collecte.

Si, par rapport à d'autres acteurs, Microsoft a plutôt tardé à prendre le virage du Cloud, il est aujourd'hui clairement et fortement positionné sur ce secteur, et ses parts de marché ainsi que sa structure (à la fois sur l'informatique personnelle et professionnelle) le mettent en situation de faire définitivement basculer des populations entières vers du "cloud-only" à l'occasion du passage à Windows 10.

Si l'OS, "l'operating system" migre entièrement dans le Cloud, notre corps et nos comportements deviennent, en feedback, le nouveau "terminal", c'est à dire à la fois l'interface permettant d'accéder aux "données" mais également le dispositif de médiation premier permettant de les rendre "programmables". Après avoir été "un document comme les autres" puis "une interface comme les autres", l'Homme est en train de devenir une entité programmable comme les autres.

Dans son article sur le "capitalisme de la surveillance", Soshana Zuboff écrivait :

"This architecture produces a distributed and largely uncontested new expression of power that I christen: ‘Big Other.’ It is constituted by unexpected and often illegible mechanisms of extraction, commodification, and control that effectively exile persons from their own behavior while producing new markets of behavioral prediction and modification. Surveillance capitalism challenges democratic norms and departs in key ways from the centuries long evolution of market capitalism."

Je traduis le passage en gras :

"Cette architecture est constituée par des mécanismes inattendus et le plus souvent illisibles d'extraction, de marchandisation et de contrôle qui exilent effectivement les personnes de leurs propres comportements pendant que ces mêmes mécanismes produisent et alimentent les nouveaux marchés de la prédiction et de la modification comportementale."

Voilà probablement la seule réponse cohérente à la question sur laquelle s'ouvrait ce billet.

Publié par Olivier Ertzscheid le 14 août 2015 : http://affordance.typepad.com//mon_weblog/2015/08/fin-donnees-debut-homme-programme.html

Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported

Dernière modification le samedi, 15 août 2015

An@é

L’association An@é, fondée en 1996, à l’initiative de la création d’Educavox en 2010, en assure de manière bénévole la veille et la ligne éditoriale, publie articles et reportages, crée des événements, valorise les innovations, alimente des débats avec les différents acteurs de l’éducation sur l’évolution des pratiques éducatives, sociales et culturelles à l’ère du numérique. Educavox est un média contributif. Nous contacter.