Le 1er février dernier a eu lieu la 4e édition des Rendez-vous RC OHdio, une journée de conférences et d’échanges portant sur la baladodiffusion présentée par Radio-Canada. La première conférence de la journée, intitulée « Intelligence artificielle : perspective en audio », a rapidement donné le ton : les développements en traitement automatique du langage naturel (natural language processing ou NLP) annoncent des incidences majeures sur cette industrie.
Au-delà de la prouesse technique inhérente à la capacité de synthétiser la voix d’un individu en se basant seulement sur quelques minutes d’enregistrement, l’acceptabilité sociale de cette technologie qualifiée d’hypertrucage est loin d’être gagnée.
Les utilisations malveillantes liées à ces avancées sont assurément responsables d’une partie des appréhensions des publics; pensons aux fraudes de mars 2023, où des aînés de Terre-Neuve avaient été victimes d’appels frauduleux, la voix synthétisée de leurs petits-enfants les implorant de les aider. Plus récemment, c’est l’image et la voix de la journaliste Anne-Marie Dussault qui ont été détournées afin de promouvoir des sites de jeux de hasard. On peut facilement imaginer combien il peut être effrayant de ne plus pouvoir se fier à ce que l’on entend.
Malgré ces dérives, de plus en plus d’initiatives se développent en lien avec le NLP dans des optiques didactiques ou d’accessibilité. Prenons par exemple l’appel de Charles de Gaulle du 18 juin 1940, qui n’avait pas été enregistré à l’époque, mais a été entièrement reconstitué par le journal Le Monde. Pour sa part, Spotify annonçait en septembre dernier la mise sur pied d’un outil pilote visant à automatiser la traduction de balados pour les rendre disponibles dans plusieurs langues dans la voix de l’hôte original, alors que les plus récents iPhone de Apple sont dotés d’une nouvelle fonctionnalité de synthétisation de la voix, le Personal Voice, afin d’outiller les personnes présentant des difficultés d’élocution ou une dégénérescence du langage.
Ce genre d’initiatives pourrait-il apaiser les peurs des publics, et ainsi accélérer une adoption plus généralisée? Est-ce qu’il y a d’autres facteurs qui pourraient apaiser les craintes liées aux usages des voix synthétiques? Il semble que ce soit le cas: à l’instar de l’exemple de Charles de Gaulles précédemment cité, où les voix synthétiques appartiennent à des personnes décédées, les appréhensions semblent moindres. Par exemple, l’émission de radio Gott Forever de Radio Prague Internationale, utilisant la voix du chanteur décédé en 2019 Karel Gott, est la pièce littéraire et dramatique la plus écoutée dans l’histoire de la Radio tchèque.
L’idée d’être exposé à des voix de personnes décédées semble être moins confrontante pour certaines personnes. Les auditeurs, sachant que Gott est décédé, ont peut-être le sentiment qu’on ne trahit pas leur confiance; qu’on ne ‘’vole’’ pas le travail de personne et que les propos exprimés, même en utilisant la voix de Gott, ne sauraient lui être directement attribués (quoique toujours soumis à des restrictions de droit d’auteur, la famille ayant souvent un droit de regard comme dans le cas du retour de Gaston Lagaffe)! Peut-être de cette façon, l’écoute de l’émission a une nature beaucoup plus éducative, accessible pour les publics, qui au passage retrouve une personnalité aimée et disparue, et il devient plus difficile d’en questionner la moralité.
Lorsqu’appliquée à des personnes vivantes, qui pourraient être affectées ou pénalisées par cette “imitation de synthèse”, la pilule est plus difficile à avaler. Les externalités positives, comme l’accessibilité ou la traduction évoquées plus haut, semblent difficilement surpasser le malaise d’être berné, d’être confronté à une fausse affirmation prononcée par une voix connue.
Comment maintenir un tissu de confiance social et éviter une méfiance généralisée face aux contenus générés avec ces nouvelles technologies? Il n’y a pas de réponse facile, mais cela passe assurément par une meilleure littératie collective. Comprendre ce qu’une IA peut et ne peut pas faire, valider la source des propos émis et être sensible aux dérives possibles afin de mieux les éviter ne peuvent qu’être bénéfiques, autant pour les auditeur.trices que les créateur.trices.
Comme l’intervenant à la conférence de la journée RC Ohdio, Gilles Boulianne, chercheur au CRIM, l’a souligné, les avancées dans ce domaine sont exponentielles. Les résultats obtenus à travers le NPL aujourd’hui sont à des années lumières de ce qui sera possible dans quelques années, si ce n’est dans quelques mois. Plus rapides, plus convaincantes et plus accessibles : les voix synthétisées pourraient devenir le pilier de la prochaine génération de contenus audio, mais seulement si les publics acceptent de se prêter au jeu.