Ce n’est pas un outil comme les autres, et surtout pas un outil nouveau, un parmi les « nouvelles technologies » comme on ne cesse de les appeler pour mieux être fasciné.
Concernant la voix, puisqu’il s’agit d’elle, les médias font souffler le chaud et froid, nous annonçant son extinction — c’est la saison — puis, quelques mois plus tard, sa réhabilitation et son retour en grâce, via l’apparition de technologies et d’applications dédiées.
Qui croire ?
Tenez, en mai dernier — ce n’est pas vieux, c’est À lire ailleurs qui l’a repéré —, National Public Radio All Tech nous prédit la fin des conversations téléphoniques :
« Communication is a two-way street. Both parties in the pair have to agree to a plan. Fewer people are willing to engage in a phone conversation, which not only eats up more time than texting but has to be done in that very moment. »
Le téléphone est très intrusif, bruyant, il oblige à se passer de la négociation préalable à la communication et à l’échange. Non, décidément, c’est un bidule qui a trop de défauts. La disponibilité et l’attention sont aujourd’hui des denrées d’une trop grande rareté pour se hasarder à les mobiliser ensemble, au même moment.
Ces considérations et observations américaines semblaient rejoindre les nôtres qui n’ont guère de raison d’être très différentes.
Et puis, patatras !
tout récemment, ce même curateur nous propose la lecture d’un article d’un blogue du New York Times intitulé « Pass the Word : The Phone Call Is Back ». L’auteur argumente : les textos manqueraient sérieusement de nuance, de chaleur et d’humour, ils peuvent être mal compris et il est difficile d’y exprimer des sentiments. Et puis, il faut répondre des problèmes qui se posent si on refuse de répondre, justement :
« All are aiming to solve a basic problem : For people accustomed to messaging, a phone call often feels disruptive and inconvenient. They may not want to answer a call immediately, but if they don’t, they may be caught in endless, irritating games of phone tag. »
À l’appui de sa théorie, l’auteur nous rapporte les statistiques d’usage qui montrent une augmentation sensible — 14 % en un an — du volume de la voix, disent les opérateurs américains.
Une autre raison peut être trouvée dans l’augmentation très sensible du rapport entre l’équipement personnel en téléphonie mobile et celui des habitations en téléphonie fixe. En effet, et c’est une observation qui vaut d’être généralisée au-delà des frontières des États-Unis, le maillage des territoires, y compris et peut-être surtout dans les pays en développement sans presque aucune infrastructure de téléphonie filaire, commence à devenir très important et complet, y compris dans des régions peu peuplées.
Il y a plus de deux ans, je vous rapportais comment l’équipement en téléphonie mobile était devenu si important dans certains pays, plus important que dans les pays dits développés, qu’il contribuait à leur développement, y compris dans le domaine de l’éducation (1).
Enfin, une autre raison, nous dit l’auteur du billet, peut être observée qui serait relative au développement d’applications nouvelles qui utilisent la voix — je dois dire que les noms de ces applications me sont parfaitement inconnus. Enfin, l’essor des objets connectés, sans clavier, nous obligerait à revoir nos modes de saisie du texte.
La question est donc posée : la voix serait-elle une technologie d’avenir ?
Qui peut croire à ça ? En tout cas, Xavier de la Porte, en 2012, n’y croyait pas une secondequi rapporte sur Internetactu.net, dans un article intitulé « La fin du téléphone ou comment notre rapport aux technos ne cesse de se transformer », les propos pessimistes d’un essayiste américain :
« Avant de se demander ce que serait demain le téléphone, n’est-il pas plus intéressant de se souvenir de ce que c’était qu’un appel téléphonique ? »
Les arguments avancés sont les mêmes. Le coup de téléphone — quelle belle image agressive ! — est intrusif, disruptif, déstabilisant, violent même. Il ouvre déjà une brèche dans l’intimité du destinataire du message qui n’a d’autre alternative que de répondre ou pas, cause possible de trouble et de problèmes dans l’un et l’autre cas.
Et puis, même si cela évolue, les autres modes de communication asynchrones, par messagerie SMS ou via une application dédiée, sont tellement plus économiques, ce qui, chez les jeunes notamment, a constitué et constitue toujours un argument fort. Les fournisseurs d’accès l’ont très vite compris en proposant assez vite, pour attirer cette clientèle particulière, des forfaits « SMS illimités ».
Revenons aussi un peu en arrière, aux heures d’avènement puis de gloire du multimédia, un mot bien peu signifiant aujourd’hui. Ses promoteurs de la fin du dernier millénaire croyaient, en mêlant dans un même document du texte, des images et du son, que ces deux derniers médias allaient supplanter le premier qu’on annonçait moribond.
Le texte, moribond ? Il ne s’est jamais aussi bien porté, n’a jamais été aussi vigoureux, aussi puissant. Même si la question de la qualité de la lecture et de la transmission des messages reste posée — après tout, c’est assez normal compte tenu de notre formation initiale —, tous les observateurs s’accordent sur le fait qu’on n’a jamais autant lu de texte écrit. Jamais. Il y aurait sans doute beaucoup à dire sur la nature de ces textes qui n’est bien sûr pas la même qu’il y a quelques décennies… Il y aurait aussi sans doute beaucoup à dire à l’observation des pratiques de lecture en ligne massives des jeunes, pratiques numériques qui s’observent et se renforcent encore dans des activités d’écriture… Je vais y revenir.
Pour ma part, je suis frappé d’observer le comportement de nombre d’internautes qui rejettent assez vite les applications qui utilisent la voix comme support. Celles qui sont, par exemple sur nos smartphones, capables de nous dire, quand on le leur demande, la température qu’il fait, de numéroter et passer un appel à notre place ou de faire une recherche dans un moteur s’avèrent assez vite être très médiocres. Elles ont, à mon avis, été proposées trop tôt, leur sensibilité au bruit ambiant et l’incapacité pour elle de s’adapter à une parole chuchotée, pour respecter l’entourage, se révélant très tôt des handicaps importants. Elles ne sont utilisables que dans le silence complet autour de soi, à condition qu’on parle à voix haute et claire, donc dans un endroit isolé. Les technologies déjà anciennes de reconnaissance de la voix associées à ces applications n’ont guère fait de progrès, nonobstant la qualité de leurs algorithmes qui n’ont cessé de progresser, à cause de ces difficultés environnementales.
Il convient en conséquence d’exprimer de forts doutes sur la capacité des objets connectés à répondre à des commandes vocales, sauf cas particuliers déjà évoqués. Et s’il est impossible de saisir du texte sur ces objets, à cause de leur taille ou de leur fonction, sans doute conviendra-t-il d’utiliser un écran tactile sur un périphérique distant et capable de communiquer avec eux, comme celui d’un smartphone ou d’une tablette, par exemple, pour leur passer nos demandes ou nos commandes.
Et pour l’éducation, quelles conséquences ?
Trois points méritent, concernant la voix dans les apprentissages, une attention particulière, je crois.
Le premier, souvent oublié, est celui du confort du professeur ou de celui qui a à s’adresser au groupe. Des techniques simples existent maintenant, avec des micros cravates et un système d’amplification léger et discret, qui permettent à celui qui doit s’exprimer face à la classe de le faire de manière confortable, sans avoir à élever la voix ou à la forcer pour obtenir l’attention du groupe.
De ce point de vue, même si les dispositifs d’apprentissages en ligne se développent, les moments d’apprentissage en groupe et en présentiel semblent ne pas vouloir disparaître tout de suite. Et c’est tant mieux. Dans ces situations, la voix reste un média et un outil plein d’avenir. Il est donc nécessaire de lui accorder un soin tout particulier.
Le deuxième concerne les situations d’apprentissage de l’écriture, de production d’écrits de toutes sortes, de saisie du texte ou de prise de notes. La plupart des prospectivistes s’accordent pour dire que la main et ses appendices et prolongements habituels et préférés que sont le stylographe et la gomme sont condamnés à une probable disparition, à terme. On exercera son agilité manuelle dans d’autres postures artistiques et différemment et on saisira le texte avec d’autres outils de saisie, dont les claviers virtuels des tablettes ou des ordiphones sont sans doute une pré-configuration.
Lesquels ? Il est encore trop tôt pour le dire. Pour aller plus loin encore, nous l’avons vu supra, il est possible maintenant de transformer un discours oral en un écrit qui demande peu de relecture tant les algorithmes de reconnaissance de la voix font de progrès. Mais, vous le savez bien, cela demande à la fois un environnement silencieux et qu’on énonce à voix haute et claire ce qui doit être saisi, toutes sortes de conditions difficiles à mettre en œuvre dans un espace d’apprentissage collectif. Doit-on revenir, à l’heure où le numérique force à multiplier les échanges et la collaboration, aux cabines d’enregistrement individuelles, casques sur les oreilles, comment on les trouvait parfois dans les classes de langue vivante ?
Si l’écoute silencieuse reste possible et, sans doute, souhaitable, à l’écoute des consignes d’un professeur ou du discours d’un autre, quel qu’il soit, sur un baladodiffuseur ou tout autre outil pour le remplacer, à commencer par ces ordiphones à tout faire, toutes les productions d’écrit utilisant la voix se heurteront à ce problème de cacophonie…
La voix reste, sans aucun doute, une technologie d’avenir pour l’écoute. Mais pour la production d’oral ou d’écrit, peu importe, les limites sont trop nombreuses encore…
Enseigner les langues vivantes ? Pour quoi faire ? J’ai l’habitude, par provocation sans doute, avec en toile de fond ma propre, lointaine et misérable expérience au collège et au lycée, de poser tout haut cette question qui bouscule quelque peu les schémas établis.
En effet, vous le savez, il est déjà possible d’obtenir la traduction immédiate, orale ou écrite, d’un texte sur le web. Et ce pour un résultat déjà fort acceptable. De même, dans des conditions encore incertaines mais qui ne cesseront de s’améliorer, il sera bientôt possible pour chacun, par exemple, d’entendre un Japonais vous parler en japonais et, dans le même temps, d’entendre la traduction que vous délivre en français votre ordiphone, puis de lui répondre en français, réponse qui lui sera illico traduite dans sa propre langue par son outil traducteur.
Utopie ? Nous y sommes presque. Google travaille déjà là-dessus depuis 2010, comme bien d’autres laboratoires de recherche. Il y a évidemment toute une économie qui se développe derrière ces projets innovants en devenir. Le poisson Babel est pour demain…
La voix, outil principal de ces nouveaux échanges enrichis, retrouvera alors toute sa place, au service de la compréhension mutuelle des autres et de leurs cultures.
Et ceux qui, depuis des lustres, parient sur l’universalité de l’anglo-américain auront sans doute à se faire du souci…
Michel Guillou @michelguillou http://www.culture-numerique.fr/
1. Des trains qui filent… et d’autres qui restent en gare… http://www.culture-numerique.fr/?p=513