Vos données seront manipulées - Educavox, Ecole, pédagogie, enseignement, formation

fil-educavox-color1

vendredi, Oct 06 2017

Débats

Écrit par Guillaud Hubert

A l’occasion de la conférence Strata Data qui se déroulait fin septembre à New York, la chercheuse danah boyd (@zephoria), l’auteure de C’est compliqué (dont paraît ces jours la traduction d’un autre livre coécrit avec Mimi Ito et Henry Jenkins) a, comme toujours, livré une présentation remarquable (extrait en vidéo).

La manipulation des médias a toujours existé et le numérique l’a certainement favorisé en rendant poreuse la frontière entre la propagande et le marketing, rappelle-t-elle en pointant vers le rapport publié par Data&Society en mai 2017, l’Institut de recherche dont elle est la fondatrice et la présidente (blog, @datasociety). Mais l’enjeu n’est pas de nous expliquer ce qui s’est déjà passé ou ce qui se passe actuellement, que de regarder ce qui s’annonce. A l’heure du Big data et de l’intelligence artificielle, si nous pensons que la donnée peut et doit être utilisée pour informer les gens et alimenter la technologie, alors nous devons commencer à construire l’infrastructure nécessaire pour limiter la corruption, les biais et l’abus de données. Nous devons reconsidérer la sécurité dans un monde de données.

Les moteurs de recherche et les médias sociaux sont devenus les cibles préférées de la manipulation.

Un petit jeu auquel tout le monde s’amuse désormais. Depuis les premiers Google Bombing, les gens ont appris par la pratique à rendre les contenus viraux et à détourner les systèmes. Ils ont développé des pratiques stratégiques de manipulation de l’attention qui ont pu avoir des conséquences graves à l’image du pizzagate, qui a été produit par un large réseau de gens cherchant à jouer de l’écosystème d’information et à créer des « effets boomerang » où la contestation et la vérification servent avant tout de canaux d’amplification de la manipulation. Les manipulateurs cherchent à ouvrir la fenêtre d’Overton, c’est-à-dire la gamme des idées acceptables par l’opinion publique.

Reste, constate la chercheuse, que jusqu’à présent, les attaques des systèmes algorithmiques, si elles ont parfois été massives, sont restées assez « manuelles ». Or, c’est cela qui risque de changer.

Entraîner un système d’apprentissage nécessite beaucoup de données.

Le problème, outre ce besoin insatiable et massif, c’est que toutes les données sont biaisées, explique la chercheuse en pointant par exemple vers une étude qui a observé les biais d’ImageNet, une base de données d’images, montrant par exemple que les systèmes d’apprentissage automatisés répliquent les biais des humains, classant plus facilement les objets selon leurs formes que selon leurs couleurs. Latanya Sweeney(@latanyasweeney), elle, a montré que la publicité proposée par Google changeait selon la connotation ethnique des noms des utilisateurs soulignant par là que le moteur a tendance à amplifier le racisme à l’oeuvre aux Etats-Unis. Pour danah boyd, adresser les problèmes de biais culturels implicites et explicites des données va constituer un énorme défi pour ceux qui cherchent à construire des systèmes.

Pour la chercheuse, le problème est que ces biais risquent d’être amplifiés par l’utilisation de données d’entraînement provenant d’un peu partout sur le web.

Les informaticiens utilisent les données de Twitter ou de Reddit pour construire des modèles pour comprendre le langage naturel par exemple, identifier des motifs sociaux, construire des modèles pour détecter la dépression ou l’engagement, sans saisir toujours que ces données ne sont pas représentatives, pensant que ces données peuvent être nettoyées pour en ôter tout contenu problématique. C’est hélas loin d’être le cas. Nous sommes mal préparés à ceux qui veulent se jouer de nous. Ce n’est pas qu’une question d’incident ou de biais culturel, souligne danah boyd, c’est qu’il y a toujours des gens pour jouer avec le contenu d’une manière stratégique – à l’image de l’affaire du ciblage publicitaire antisémite de Facebook révélé récemment par Propublica (voir les explications du chercheur Olivier Ertzscheid).

Mais danah boyd apporte un autre exemple : celui de l’expérience (.pdf) de Nicolas Papernot(@nicolaspapernot). Afin de comprendre les vulnérabilités des algorithmes de reconnaissance d’image, Nicolas Papernot et ses collègues ont cherché à altérer des images de panneaux de signalisation pour transformer des stops en céder le passage, sans que ce changement soit perceptible aux humains.

Ce qu’expliquent les chercheurs, c’est combien ces manipulations visant à corrompre une base de données peuvent être simples. « Pensez à ce que cela signifie pour les voitures autonomes », s’inquiète la chercheuse. Pour l’instant, ces attaques sont amicales et sont le fait de chercheurs… Mais cela ne durera pas, prévient-elle. Et d’inviter les entreprises à prendre ces questions au sérieux.

Reste, souligne-t-elle, que de nombreuses entreprises, malgré les innombrables brèches et fuites de données à répétition, continuent à ne pas prendre au sérieux la vulnérabilité de leurs données.

Les entreprises doivent réfléchir à construire des « anticorps techniques ».

« Vous devez réfléchir à la façon dont vos données peuvent être corrompues, par qui et dans quel but ». L’industrie de la technologie a perdu la culture du test au profit de la culture de la bêta perpétuelle et de la coconception de la qualité avec les utilisateurs. Mais c’est oublier que la culture du test ne se limitait pas à la recherche de bugs. Elle avait aussi pour fonction d’intégrer des dissensus dans les processus de conception et de développement. Désormais, ce sont les journalistes qui humilient les développeurs ont montrant les biais de leurs systèmes. Mais ils ne sont pas les seuls. Les chercheurs s’y mettent aussi, en tentant de construire des systèmes d’apprentissage pour révéler les biais des systèmes. Et danah boyd d’évoquer les recherches dans le domaine des réseaux d’adversaires génératifs (generative adversarial networks, à l’image de cette étude .pdf). L’enjeu, résume la chercheuse, c’est de faire générer des contenus par deux algorithmes afin que l’un évalue ceux de l’autre. L’un tente d’embobiner le second pour qu’il accepte de « mauvaises » informations dans le but de trouver des limites aux modèles déployés.

Pour la chercheuse, il est temps de réintégrer de l’antagonisme dans le processus de construction des modèles. « Nous devons intégrer activement et intentionnellement une culture de l’évaluation, de la vérification et de l’apprentissage fondée sur la confrontation ». Nous devons apprendre à évaluer les biais et construire des outils pour suivre l’évolution des systèmes avec autant d’efforts que ceux apportés à construire des modèles. L’artiste et chercheur Matthew Goerzen va plus loin encore : pour lui, il faut inviter les trolls à s’immiscer dans les systèmes pour en comprendre les vulnérabilités.

Et danah boyd de conclure : « L’industrie de la technologie ne peut plus être le terrain de jeu passionnel d’un groupe de geeks tentant de faire des merdes cools pour le reste du monde. Désormais, elle est le fondement de nos démocraties, de nos économies, de notre paysage informationnel ». Le monde idéal que l’on cherche à construire ne vit pas en autarcie. Il est plus que jamais nécessaire d’intégrer que d’autres souhaitent le manipuler et y semer le chaos et de prendre cela au sérieux.