ChatGPT : de quoi parle-t-on ?
C’est quoi ?
ChatGPT est agent conversationnel, développé par la société par la société californienne OpenAI. C’est un puissant programme informatique statistique affiné par un apprentissage qui modélise l’enchaînement de suites de mots dans une langue naturelle. Cette Intelligence artificielle (IA) est aussi appelée « modèle de langage »
Ça fait quoi ?
Actuellement, le prototype de ChatGPT auquel le public a accès peut rendre différents services : réponse à une question ; classement ou extraction de données ; génération de code ; transformation de contenus (résumé, correction, traduction d’un texte) ; mise en phrase de mots clés ; rédaction de courrier (mail, lettre); composition de poème, d’histoire pour enfant, de contenus pour de réseaux sociaux, de note synthèse, de script de film ou de série télé.
Comment ça marche ?
ChatGPT fonctionne avec la technologie de deep-learning « Transformer » qui convertit une séquence donnée d’éléments, comme les mots d’une phrase, en une autre séquence. Dans ChatGPT cette technologie est complétée par de l’apprentissage supervisé et de l’apprentissage par renforcement qui font appel à des formateurs humains pour améliorer les performances du logiciel.
GPT-3 a été entraîné sur 570 gigaoctets de textes issus d’encyclopédies, de livres, et surtout de publications sur Internet, d’articles Wikipédia, de messages publiés sur les réseaux sociaux et de transcriptions de vidéos postées sur le web jusqu’en 2021. Cela représente un corpus 300 000 milliards de mots qui sont traités au moyen de 175 milliards de paramètres. Cette masse d’information semble énorme, pourtant c’est 100 à 1000 fois fois moins que ce que brasse le moteur de Google : 130 000 milliards de pages internet indexées, 20 milliards de sites visitées chaque jour qui alimentent la réponse à 7 milliards de requêtes par jour, avec les informations les plus récentes.
Le fonctionnement d’un tel modèle de langage nécessite une puissance de calcul phénoménale et consomme beaucoup d’énergie électrique. Ainsi la puissance nécessaire pour un seul entraînement de GPT 3 serait supérieure à 4 GWH, soit la production d’une tranche de centrale nucléaire pendant quatre heures.
ChatGPT : Innovation de rupture ou coup de com’ ?
Les technologies sur lesquelles s’appuie ChatGPT n’ont rien d’innovant.
Les essais de traitement automatique du langage ont commencé dans les années 1950 et le premier agent conversationnel, appelé ELIZA a été mis au point en 1964. Les algorithmes de machine-learning ont vu le jour à la fin des années 1980 et les réseaux neuronaux sont utilisés pour la lecture de texte depuis les années 1990. Les applications grand public du traitement du langages apparaissent d’abord sous forme de correcteurs automatiques ou de traducteurs de texte, puis comme des assistants vocaux, tels que Siri, Cortana, Google Home ou encore Alexa et comme des interlocuteurs virtuels sur les les sites internets commerciaux.
Le procédé «Transformers» a été développé par Google qui l’a présenté en 2017. Depuis, il est devenu la référence pour de nombreux programmes linguistiques comme LaMDA de Google AI, StructBERT d’Alibaba, Open Pretrained Transformer de Meta…et le Generative Pre-trained Transformers (GPT) de la société OpenAI dont la troisième génération, GPT3, est utilisé pour la version actuelle de son agent conversationel ChatGPT. Enfin la technique d’apprentissage par renforcement utilisée par OpenAI a été mise au point par Deepmind une filiale de Google.
On notera aussi que d’ autres solutions telles que Chatsonic ou Simplified AI Writer sont capables de produire du texte en réponse à des questions. Par ailleurs d’autres types de contenus peuvent être générés par IA : des images et même des vidéos avec des requêtes en langage naturel, avec les créateurs d’image de Craiyon ou Midjourney ou avec Dall-E dOpenAI.
En fait, le programme ChatGPT n’est pas une rupture technologique, mais une ingénierie nouvelle reposant sur l’assemblage de modèles existants qui ont été adaptés pour améliorer la fluidité et l’ergonomie d’une interface conversationnelle multitâches qui peut aussi bien générer du code informatique que d’écrire des poèmes en quelques minutes.
Une promotion remarquable et très efficace
S’il fallait parler de prouesse au sujet de ChatGBT c’est au sujet de la rapidité avec laquelle il est devenu la coqueluche de tous les médias : publications professionnelles, presse grand public, médias audio-visuels, réseaux sociaux etc., grâce à quelques communiqués de la société OpenAi et de Microsoft, son principal bailleur de fond, (aidés par Bill Gates qui a fait savoir urbi et orbi tout le bien qu’il pense de l’IA en général et de ChatGPT en particulier). Et là, c’est du jamais vu : dans les deux mois qui ont suivi la mise en service plus de 100 millions de personnes se sont connectés au programme; pour mémoire il avait fallu neuf mois à TikTok et deux ans et demi à Instagram pour atteindre ce score.
Une chose est sûre : on aura jamais autant parlé d’intelligence artificielle, sur ce qu’elle produit (plus ou moins bien) et ce qu’elle changera (ou pas) dans nos vies
Performances et faiblesses de ChatGPT
Comme cela été exposé plus haut cet nouvel agent conversationnel repose sur une gigantesque quantité de données qui mobilise plus de 100 milliards de paramètres et dont l’entraînement comprend de nombreuses interventions humaines ordonnées par OpenAI, complétées par le fine tuning de masse qu’ont permis les millions de requêtes d’utilisateur curieux attirés par l’extra-ordinaire buzz médiatique orchestré lors de son lancement. Cela suffit il à en faire un modèle de langage efficace et fiable ? Pas sûr !
Performances à géométrie variable
La diversité des textes qu’il peut produire quasi instantanément (rédaction de discours, traductions, génération de code informatique…) autant que sa capacité à détecter la tâche qu’on lui demande d’accomplir séduisent. Le plus souvent la réponse à la question posée est correcte (à condition de se rapporter à des données antérieures à 2021) et elle elle toujours exprimée avec une syntaxe parfaite.
Cependant, l’examen détaillé/approfondi des textes produits par ce chatbot montre que le style est uniforme, les réponses (quand elles sont exactes) sont parfois évasives, et toujours politiquement correctes. De plus, lorsque que la question posée est imprécise ou loufoque la réponse est généralement absurde sauf quand ChatGPT avoue qu’il ne sait pas y répondre . Ces approximations, inventions et autres « hallucinations » résultent d’un processus de réponse statistique qui brasse, sans raisonnement ni émotion, des informations au sein d’un corpus mémorisé non exhaustif qui couvre un très large éventail de disciplines et de thématiques ce qui limite inévitablement sa « profondeur ».
Les plus sévères affirment que ChatGPT peut dire n’importe quoi, vrai ou faux, avec une grammaire et une orthographe impeccables et un ton assuré voire péremptoire qui conditionnent la perception de sa performance au point de bluffer l’utilisateur aux deux sens du terme : éblouir et tromper.
ChatGPT n’est pas intelligent
A la différence de l’intelligence artificielle régénérative, l’intelligence humaine n’est pas restreinte à la maîtrise de multiples systèmes mathématiques composés des calculs probabilistes complexes et, dans l’assemblage des mots, le langage humain véhicule aussi de l’émotion, des sous entendus, des nuances aussi spontanées qu’incalculables.
L’application linguistique ChatGPT est totalement dénuée d’intuition, de sensibilité, d’affect dont l’imprévisibilité échappe à la modélisation statistique. Cet agent conversationnel ne comprend pas : il détecte ; il n’invente pas une phrase ou un texte, il assemble des mots, sans convictions ni sentiment, selon les règles que ses programmeurs lui ont assigné. Bref, ChatGPT n’est pas intelligent car il est incapable de faire preuve discernement, de jugement, de bon sens.
Qu’est que ChatGPT va (peut être) changer ?
Des bancs du collège aux salles de rédactions en passant par les cabinets d’avocats, les agences de marketing et les société d’informatique ce nouvel outil séduit par ce qu’il peut faire autant qu’il questionne sur ce (et ceux) qu’il pourrait remplacer.
Défi pour le monde de l’enseignement
Peu après le lancement de ChatGPT, à l’école comme à l’université, les enseignants ont constaté que son utilisation incite à la paresse dans l’apprentissage du langage, dans la collecte, l’analyse et la mémorisation d’informations, ainsi que dans le travail de mobilisation des connaissances et de leur synthèse pour répondre à une question ou résoudre un problème. La médiocrité et le manque d’originalité du travail réalisé avec cette béquille mentale a été rapidement repérée aussi.
Le parade la plus rapide, mais peut être la plus simpliste, a consisté à en interdire l’utilisation comme cela a été décidé dans les écoles de NewYork, à Sciences Po-Paris etc. Cela n’évacue en rien le fait tout apprentissage peut être facile pour certains et difficile pour d’autres : dans ces conditions former à l’usage de l’intelligence artificielle qui colonise les objets numériques des petits et des grands est un « must » pour en monter, sans préjugés, l’utilité, les failles et les limites. Alors, plutôt qu’un substitut utilisé par facilité, un programme comme ChatGPT peut devenir outil pédagogique nouveau qui permet de gagner du temps dans l’acquisition des connaissances et élargir l’accès au(x) savoir(s) au plus grand nombre d’élèves ou d’étudiants.
Quant aux abus de cette anti-sèche numérique, il peuvent être neutralisés par un contrôle es connaissances qui privilégie l’expression orale et une notation basés sur des critères relatifs à l’argumentation et à la réflexion.
Dans la vie professionnelle
La capacité de ChatGPT à répondre sur de nombreux sujets techniques, juridiques, artistiques, etc en fait elle un concurrent sérieux pour des ingénieurs, des avocats, des journalistes ? Les codes informatiques qu’il débite à la demande peuvent ils rivaliser avec le travail des informaticiens ? Aujourd’hui la réponse est non (et ce n’est pas pour demain).
Aussi gigantesque soit il, le corpus corpus de données compilées en silos dans sa « mémoire » est limité par la diversité de ses sources dont beaucoup sont de qualité médiocre et peu fiables, d’une part, et qui sont peu interconnectées d’autre part. Quant au traitement algorithmique statistique, fût il entraîné avec des milliards de critères (qui ne sont pas tous cohérents entre eux) et renforcé par une supervision humaine aidée par les retours utilisateurs, il est (très) loin d’atteindre ce ce que permet la plasticité cérébrale chez l’homme.
Les outils d’IA ne remplaceront pas les emplois intellectuels. Malgré leur puissance quantitative ces modèles ne sont pas capables de saisir les subtilités informelles du contexte dans lequel leur est posée une question pour produire une réponse cohérente et nuancée. Dit autrement ils nécessitent une intervention significative de leur utilisateur autant pour produire un résultat juste et fiable que pour le vérifier. Les agents conversationnels comme ChatGPT sont conçus fournir des assemblages de mots ou des lignes de code informatique, mais ils n’ont pas les moyens de garantir la pertinence de leur production. Cela en fait donc des assistants … qui déchargent leurs utilisateurs : journalistes, copywriters, informaticiens etc., de tâches fastidieuses à faible valeur ajoutée. Autant de temps gagné pour se consacrer à des activités plus créatives et donc plus valorisantes que le processus statistique du programme est incapable d’exécuter !
Quant à ChatGPT soi-même, sa conception et son développement ont généré des emplois plus ou moins qualifiés. D’après Time Magazine l’entraînement du chatbot sur des textes « modérés » par l’homme a mobilisé des dizaines de milliers de travailleurs du clic au Kenya payés 2 dollars de l’heure (dans le meilleur des cas). Au cours des derniers mois, OpenAI a recruté 1000 collaborateurs contractuels : 60 % d’entre eux sont affectés à l’étiquetage des données et 40 % sont des développeurs chargés de perfectionner la fonctionnalité de codage de ChatGPT
Derrière l’arbre ChatGPT… une jungle artificiellement intelligente
L’engouement pour ce nouveau robot conversationnel comme le matraquage médiatique qu’il provoque ne doivent pas éluder les enjeux qu’il dessine déjà sur le plan économique et juridique et dans le spectre des risques prévisibles de son détournement à des fins politiques ou délictueuses.
Un nouveau rapport de forces dans le cercle des géants du numériques
Si le lancement a attiré un grand nombre d’utilisateurs et une notoriété éclair, la persistance de l’intérêt de ce nouvel outil, déjà controversé, est encore hypothétique. Il est trop tôt pour mesurer la proportion des technophiles qui accepteront d’adopter durablement la version payante (20 dollars par mois), en revanche on sait déjà que ce ne sera pas la seul source de revenus qu’il va générer. En effet ce programme peut être associé ou combiné à d’autres produits ou services numériques payants ou apparemment gratuits quand il sont au mis au service de la publicité ciblée. Microsoft, principal financeur d’OpenAI, a déjà annoncé l’intégration de ChatGPT dans son moteur de recherche Bing, dans les programme de la suite bureautique Office, dans l’appli de visioconférence Teams…
Le marché de l’intelligence a rapidement réagi entre annonce de nouveautés et surenchère technologique comme en témoignent les récentes déclarations des GAFA aux Etats-Unis et des BATX en Chine. Apparemment les appétits s’aiguisent à la vue ce nouveau gros gâteau commercial généré par l’immixtion de l’IA dans des les usages numériques quotidiens qu’ils soient grand public ou professionnels.
De nombreuses questions juridiques
Bien qu’il soit présenté comme un assistant, ChatGPT n’est pas au dessus des lois ce qui suscite bien des interrogations, par exemple :
- Qui a la propriété intellectuelle d’un contenu généré par un chatbot ?
- Le contenu produit par un chatbot est il véritablement original dans la mesure où il utilise les textes d’autres auteurs (sans leur autorisation) ?
- Qui est responsable des effets d’une réponse incomplète ou inexacte utilisée dans une activité professionnelle ?
D’autres outils d’IA (générateurs d’image) font actuellement l’objet de procédures judiciaires aux États-Unis et il est probable que tels procès touchent aussi ChatGPT ou/et d’autres générateurs de texte : il va y avoir du pain sur la planche des avocats et des juges en attendant l’indispensable encadrement légal et réglementaire de cette technologie nouvelle.
Des captations de données à tous les niveaux
OpenAI a alimenté ChatGPT avec plus de 300 milliards de mots tirés du web. Dans cette ensemble d’informations on trouve des billets de blog, des publications de réseaux sociaux y compris des avis laissés sur des sites de vente en ligne, des commentaires postés sur des comptes individuels… Ce stockage d’une masse considérable de données personnelles interpelle car les personnes qu’elles concernent ne peuvent pas en demander la modification ou la suppression faute de procédure d’accès proposée par OpenAI qui s’affranchit là des obligations du RGPD.
Par ailleurs, chaque fois qu’un utilisateur de cette IA lui pose une question ou lui demande d’accomplir une tâche, il lui fournit son adresse IP, ses caractéristiques de navigations etc. Il lui livre aussi moult données personnelles, des plus banales (commentaire d’une erreur du chatbot) aux plus sensibles (référence à une anecdote personnelle).
Des biais inquiétants
Il est de notoriété publique que même l’intelligence artificielle la plus élaborée a ses failles dues aux biais causés par l’hétérogénéité des données compilées ou/et par les insuffisances des traitements algorithmiques : la machine ne fait pas autre que ce ses concepteurs lui ont ordonné et/ou permis de faire.
Parmi les anomalies observées jusqu’à maintenant on trouve de nombreuses fake-news, des réponses influencés par la culture nord-américaine ou des informations reproduisant les éléments de langage du Département d’État US qui alertent sur de possibles dérives sournoises vers de l’hégémonie culturelle ou de la propagande.
Enfin, les petits malins qui formulent leur questions par la tangente peuvent obtenir des réponses contenant des propos agressifs, des méthode de fabrications d’explosifs etc.
De nouveaux cyber-risques
Parce que ChatGPT est capable lire, générer ou corriger du code informatique, il peut détecter (et exploiter) des failles de sécurité, produire des logiciels malveillants : vol de fichiers, génération de faux contenus (sous forme de e-book ou de formations en ligne par exemple). Il peut aussi rédiger de messages de cyber-arnaque par détection de mots-clés et même mener une cyberattaque.
Et après ?
Bien malin qui pourra prédire les performances futures de l’intelligence artificielle et ce que l’homme acceptera d’en faire car nous ne sommes au début de son utilisation par tout un chacun. A la lumière de ce qui a été observé autrefois (imprimerie, mécanisation) ou ans un passé récent (robotisation, internet des objets, virtualisation du monde) il apparaît que ce qui adviendra à moyen et long terme dans le domaine de l’assistance numérique dépend autant de nous (consommateurs et aussi citoyens) que de la technologie elle même et du maelstrom de marchandisation qu’elle suscite.
Que le progrès des sciences et techniques améliorent la vie de l’homme : tant mieux, à condition que la technologie ne prenne pas sa place tant pour créer que pour décider.
Xavier Drouet
https://hommesetsciences.fr/chatgpt-revolution-technologique-ou-illusion-marketing/
Dernière modification le vendredi, 24 mai 2024