De l’algorithme de Google à la science des données
Il y a vingt ans, deux étudiants de Stanford inventaient un algorithme qu’ils baptisaient Pagerank, destiné à établir un classement des quelques millions de pages que comptait alors le web. Cet algorithme a fait le succès du moteur de recherche Google, qu’ils ont créé dans la foulée. Au fil des deux décennies qui ont suivi, le mot algorithme est passé du jargon des informaticiens à la désignation d’un sujet de société (au point que l’Académie française, qui l’avait jadis supprimé de son dictionnaire, a décidé de l’y remettre).
Porteurs d’autant de promesses que d’inquiétudes, les algorithmes déterminent désormais quelles pages les moteurs de recherche nous renvoient, mais aussi ce qui nous est présenté sur les plates-formes de réseaux sociaux, quels articles sur les sites d’information, quelles vidéos, quels morceaux de musique. Plus encore, ils tranchent des décisions comme l’affectation à l’université ou l’attribution de crédit bancaire, et bientôt, peut-on parfois lire dans la presse, qui, entre un vieux monsieur ou une femme enceinte, une voiture autonome décidera de renverser.
Mêlant informatique et statistique, la « science des données » utilise des données massives sur les activités humaines pour comprendre les comportements, concevoir des profils types, prédire nos actions futures à partir de nos actions passées, modéliser nos préférences pour nous faire des recommandations.
Comprendre le comportement des individus devient alors essentiel et de nombreux travaux d’informatique, de statistique ou même de physique statistique, se sont intéressés, depuis 20 ans, à des questions de nature sociologique : les facteurs de la diffusion de l’information, la nature et l’intensité des liens sociaux à partir des échanges sur des outils de communication (plateformes web ou téléphone), l’impact de l’éloignement géographique sur ces échanges, ou même une mesure de la structure d’un réseau d’amis Facebook comme prédicteur de la longévité d’un couple.
Point d’orgue de cette mouvance, en 2009, un collectif de 15 chercheurs et (une) chercheuse a publié dans la revue Science un article à valeur de manifeste pour mettre en avant ce qu’ils ont appelé la science sociale « computationnelle », s’appuyant sur des algorithmes et des données massives.
De la sociologie « avec » des algorithmes, à une sociologie « des » algorithmes
Les transformations apportées par les algorithmes dans l’étude de la société sont loin de faire l’unanimité. En France, ce n’est que près de dix ans après l’article de Science que commencent à sortir des publications collectives sur le sujet. Ainsi, en 2017, un ouvrage issu d’un colloque au Collège de France sur « la quantification massive des individus », et en octobre 2018, un numéro de la Revue française de sociologie intitulé « big data, sociétés et sciences sociales ».
Ce décalage est très bien justifié par Jean‑Samuel Beuscart, dans un des chapitres de l’ouvrage du Collège de France, où il explique dans quelles conditions et avec quelles précautions il est possible d’utiliser « des données du web pour faire de la sociologie… du web ». En effet, contrairement à l’idée mise en avant par Google à ses débuts, le caractère mathématique d’un algorithme n’est en rien un gage d’objective neutralité. Même si les apports de la science des données à la connaissance de la société sont indéniables, ses outils et productions peuvent prêter à la critique.
La science, outil politique
Dans un livre paru en 1962, La structure des révolutions scientifiques, le philosophe Thomas Kuhn présente les faits scientifiques non pas comme une représentation objective de la nature, mais comme le produit du travail des scientifiques, travail socialement conditionné tout comme le reste des activités humaines. On peut illustrer l’idée de conditionnement social des scientifiques par l’histoire de la statistique. À la fin du XIXe siècle, les britanniques Francis Galton et Karl Pearson ont inventé les techniques mathématiques qui forment encore maintenant l’outillage de base de la statistique et de l’économétrie (régression linéaire, écart-type, coefficient de corrélation…).
Dans le même temps, ils ont jeté les bases de l’eugénisme. En effet, Galton, cousin de Darwin, voyait dans le traitement des données sur les populations un outil d’action politique au service d’un darwinisme social, dont un des objectifs serait de favoriser les individus selon leur valeur intrinsèque. Le nazisme comme horizon politique de la notion d’inégalité génétique des individus a eu raison du mouvement eugéniste, mais les outils mathématiques sont restés.
Dans un livre sorti cette année intitulé Genetics in the Madhouse, l’historien des sciences états-unien Théodore Porter montre comment la génétique est née des travaux de ces premiers statisticiens eugénistes à partir de la grande quantité de données d’hérédité accumulées à cette époque par les hôpitaux psychiatriques. L’organisation de ces données à une échelle internationale à l’aube du XXe siècle préfigurait ce qu’on observe depuis le séquençage du génome humain au début du XXIe siècle, avec la constitution de grandes infrastructures de données associant gènes ou variants génétiques et indications cliniques.
Questionner les infrastructures
Que ce soit pour la recherche ou pour les décisions politiques, stratégiques ou opérationnelles, la construction d’infrastructures de données n’est jamais neutre et résulte toujours d’un nombre incalculable de décisions, d’arbitrages, d’actions individuelles et collectives, de renégociations permanentes, qui sont souvent occultées par la « vision » portée par un projet. Dans nos routines quotidiennes, on utilise Google, Facebook, Spotify ou d’autres services numériques comme on ouvre le robinet pour puiser quelques centilitres au réseau d’approvisionnement en eau. Qui sait quelles controverses oubliées ont accompagné en leur temps la mise en place de ces réseaux plus anciens : l’eau potable, l’électricité, les égouts, le chemin de fer ?
Une des tâches de la sociologie consiste à débusquer les nombreux processus sociaux à l’œuvre dans la conception, le déploiement et les usages de dispositifs techniques qui finissent par aller de soi. C’est ce que souligne Susan Leigh Star dans « L’ethnographie des infrastructures », un article fondateur publié en anglais en 1999, dont la première traduction en français vient de paraître dans un numéro de la revue Tracés consacré aux infrastructures. Dans ce même numéro, un article de Clément Marquet traite des enjeux politiques locaux de l’implantation, depuis les 20 dernières années, en banlieue nord de Paris, de la plus grande concentration en Europe de data centers, centres de traitement de données informatiques, assemblages massifs de matériel informatique lourd, de composants architecturaux austères et de dispositifs de sécurité ostensibles, qui tranchent avec le métaphorique nuage dont ils sont la matérialisation concrète.
Ce qui se cache dans le nuage
D’autres travaux récents en sociologie mettent ainsi en évidence des aspects largement ignorés de la production des données et du fonctionnement des algorithmes. Dans l’ouvrage du Collège de France déjà mentionné, Jérôme Denis et Samuel Goëta montrent à quel point l’open data, la publication de données par les organisations, notamment les administrations publiques, nécessite une quantité de travail considérable, à différentes étapes d’un processus complexe (identification, extraction, nettoyage, redéfinition) impliquant des transformations organisationnelles. De même, Antonio Casilli, dans En attendant les robots, sorti en janvier dernier, souligne les multiples formes de travail hautement précaire que cache la nouvelle économie qui met en avant, depuis quelques années, les algorithmes comme principal progrès technique.
Les conditions de travail des chauffeurs Uber commencent aujourd’hui à être bien documentées, ce qui est beaucoup moins visible, ce sont les modalités de mise en place des méthodes d’intelligence artificielle, qui ne reposent pas seulement sur des algorithmes très performants, mais aussi sur un vaste prolétariat de travailleurs et travailleuses à l’intelligence tout à fait humaine, très majoritairement implanté/es dans des pays où le droit du travail est très peu développé. Leur rôle est d’entraîner les algorithmes sur des micro-tâches très répétitives telles que cliquer, dans une suite d’images, sur celles qui contiennent des tomates, ou vérifier la retranscription des caractères des plaques d’immatriculation apparaissant sur une série de vidéos.
Ni utopie ni dystopie
D’une manière générale, les visions véhiculées par les algorithmes de la « science des données » ou de l’« intelligence artificielle » sont souvent plus proches de l’utopie scientiste ou de la dystopie façon Meilleur des mondes, que de la prise en compte réaliste et éclairée des processus sociaux qui accompagnent le déploiement de ces avancées techniques, processus sociaux qu’étudie la sociologie, avec ou sans algorithmes. Comment des problèmes deviennent-ils prioritaires dans l’agenda de l’innovation ? Comment, pour répondre à ces problèmes, des standards émergent-ils parmi de nombreuses solutions concurrentes ? Dans l’application de ces standards, quelles procédures met-on en place ? Et pour contourner les lourdeurs, les biais ou les angles morts de ces procédures, quels petits ou grands arrangements s’inventent-ils au quotidien ? Autant de questions dont dépendra la société de demain, avec des machines, mais surtout avec des humains.
Maître de conférences en sociologie à Télécom ParisTech, chercheur associé en informatique au Lip6 (Sorbonne Université), Institut Mines-Télécom (IMT)
https://theconversation.com/des-algorithmes-et-des-individus-109361?utm
Ce texte est publié dans le cadre de la chronique « Société numérique », proposée par les chercheuses et chercheurs du département Sciences économiques et sociales de Télécom ParisTech, membres de l’Institut interdisciplinaire de l’innovation (CNRS).
Dernière modification le samedi, 01 octobre 2022