Et bien, nous-mêmes, avec Ko de Ruyter, de la Cass Business School à la City University London et Mike Friedman, de l’université catholique de Louvain avons mis au point un détecteur à mensonge numérique. Il peut dévoiler toute une ribambelle de mensonges sur Internet.
Dans notre nouvelle recherche, nous avons utilisé des indices linguistiques pour confronter des dizaines de milliers d’e-mails préidentifiés comme mensongers avec ceux que l’on avait reconnus véridiques. Et en les comparant, nous avons développé un algorithme d’analyse de texte qui peut détecter la tromperie. Cela fonctionne à trois niveaux.
1. Utilisation du mot
Rechercher des mots clefs peut constituer une approche raisonnable lorsqu’on a de grandes quantités de données numériques à traiter. Nous avons donc commencé par différencier les utilisations de mots dans les deux catégories identifiées. Ces différences font apparaître le texte avec un mensonge probable.
Nous avons découvert que les menteurs utilisent généralement peu de pronoms personnels comme moi, vous, lui, elle. Et davantage d’adjectifs comme brillant, intrépide et sublime. De même, ils se servent rarement de pronoms personnels à la première personne – je, moi, à moi – avec des mots suggérant une certaine variation comme pouvant, devant, voulant. Et ils utilisent abondamment les pronoms à la deuxième personne (vous, votre) associés à des mots de réussite (récolter, héros, gagner).
Moins de pronoms personnels révèle la tentative d’un auteur de se dissocier de ses mots, tandis qu’utiliser plus d’adjectifs est censé détourner l’attention du mensonge grâce à une flopée de descriptions superflues. Moins de pronoms à la première personne du singulier, associés à des mots à la signification pouvant varier indique, pour une personne, un manque de subtilité et une image positive de soi alors que des pronoms à la seconde personne combinés à des termes caractérisant la réussite signalent une tentative de flatter le destinataire. Nous avons donc inclus ces combinaisons de recherche de mots dans notre algorithme.
2. Examen de la structure
Une autre partie de la solution consiste à analyser la variation de mots impliquant des processus cognitifs tels que à cause de, parce que, connaître et devoir, et nous avons identifié une relation entre la structure des mots et les mensonges.
Les menteurs ne peuvent pas créer des mails qui contredisent la mémoire que l’on a des évènements récents, ils évitent donc toute spontanéité pour ne pas être pris en défaut. Cela ne veut pas dire que les menteurs utilisent davantage de termes impliquant des processus cognitifs que les gens qui disent la vérité, mais ils incluent ces termes de façon plus systématique. Par exemple, ils ont tendance à relier chaque phrase à la suivante :
« Nous savons que cela est arrivé à cause de ceci, parce que cela doit être le cas ».
Notre algorithme détecte un tel traitement de mots dans la communication.
3. Approche croisée d’e-mail
Nous avons également étudié les moyens par lesquels un expéditeur d’e-mails change son style linguistique en échangeant dans le même temps de nombreux e-mails avec quelqu’un d’autre. Cette partie de l’étude a révélé qu’au cours de l’échange, l’expéditeur tendait à utiliser plus souvent les mots fonctionnels employés par le destinataire lui-même.
Les mots fonctionnels sont les termes qui contribuent à la syntaxe ou à la structure plutôt qu’au sens d’une phrase, par exemple un, suis, vers. Et les expéditeurs ont changé le style de leurs messages pour coller à celui du destinataire. En conséquence, notre algorithme identifie et collecte ces appariements.
Des applications passionnantes
Les organismes de défense des consommateurs peuvent se servir de cette technologie pour taxer de « possiblement trompeurs » des publicités douteuses. Des sociétés de surveillance et des patrouilles frontalières peuvent utiliser l’algorithme pour évaluer des documents comme les visas, les cartes d’identité, pour mieux surveiller le respect des règles d’entrée dans un pays. Les secrétaires des commissions d’examen dans l’enseignement supérieur et les éditeurs de revues universitaires pourront améliorer leurs outils de détection des plagiats avec une vérification automatique des thèses d’étudiants et d’articles universitaires.
En fait, les applications possibles sont sans fin. Les blogs politiques ont la faculté de surveiller avec succès les échanges sur leurs médias sociaux pour déceler toute anomalie de texte tandis que des sites de rencontre et d’évaluation peuvent classer les messages envoyés par les utilisateurs en fonction d’un résultat de « mensonge probable ». Des compagnies d’assurances ont la possibilité de mieux utiliser leur temps et leurs ressources pour vérifier les demandes d’indemnisation. Avec notre algorithme, comptables, conseillers fiscaux et juristes peuvent examiner relevés financiers ou déclarations d’impôts et trouver des preuves irréfutables de tromperie.
Les humains sont étonnamment nuls quand il s’agit de détecter en toute connaissance une arnaque. En effet, leur taux de réussite pour repérer un mensonge se situe tout juste à 54 %, à peine mieux que le hasard. Alors que notre détecteur numérique de mensonge est précis à 70 %. Il est possible de l’utiliser pour combattre la fraude chaque fois qu’elle intervient dans un contexte informatisé. Et au fur et à mesure que la technologie évolue, ses avertissements à la Pinocchio peuvent s’automatiser intégralement et leurs aptitudes augmenter d’autant. Tout comme le nez de Pinocchio s’allongeait d’autant face à une contre-vérité, ainsi fonctionne notre détecteur numérique anti falsification. Menteurs, prenez garde !
Article initialement publié sur le site : https://theconversation.com/comment-debusquer-un-mensonge-en-ligne-des-profils-de-rencontres-au-brexit-61874
Auteur : Tom van Laer et Stephan Ludwig
Licence Creative Commons - Attribution/Pas de Modification,