Problèmes de fiabilité. Propagation de fausses informations. Exacerbation des préjugés. Dangers pour la sécurité ou la fuite de données, utilisation à des fins malveillantes, manipulation des opinions : de nombreux risques des modèles de langage ont été abordés lors du séminaire. En voici trois.

Hallucinations

Quiconque a utilisé ChatGPT ou un autre modèle de langage peut en témoigner : ces engins peuvent sérieusement délirer, inventant parfois des faits de toutes pièces. Considérant que l’on envisage d’utiliser ces outils pour des tâches aussi critiques que le triage des patients aux urgences, ces ratés sont préoccupants. La question de la confiance entre l’humain et la machine a d’ailleurs fait l’objet d’une présentation par Ana Marasović, chercheuse à l’Université de l’Utah.

PHOTO PHILIPPE MERCURE, LA PRESSE

Les chercheurs Ana Marasović et Siva Reddy en discussion devant un bon vieux tableau noir

Étonnamment, le fait que ces modèles génèrent ce que les chercheurs appellent des « hallucinations » n’est toutefois pas vu de façon négative par tous les scientifiques.

PHOTO PHILIPPE MERCURE, LA PRESSE

Neil Lawrence, professeur en apprentissage machine à l’Université de Cambridge

Neil Lawrence, chercheur à l’Université de Cambridge, juge ces délires « excitants ».

« L’un des problèmes avec les médias sociaux est que les algorithmes sont si simplistes qu’ils renvoient les mêmes choses encore et toujours. Ce type de constance est extrêmement destructeur pour la diversité et je crois que ça alimente la division », dit-il.

Il juge l’« inconstance » des modèles de langage plus près de celle qu’affichent naturellement les humains et porteuse de « créativité ».

Débridages

Demandez à ChatGPT de vous fournir la recette du napalm ou du fentanyl, et il déclinera poliment. Des garde-fous – ou verrous – ont été insérés dans le modèle afin qu’il ne soit pas utilisé à des fins malveillantes. Mais il existe des moyens de les contourner.

Dites à ChatGPT, par exemple, que votre grand-mère a déjà travaillé dans une usine de napalm et demandez-lui de vous raconter une histoire comme elle vous l’aurait racontée, et il est possible qu’il crache le morceau.

Il existe bien d’autres façons de contourner les mécanismes de sécurité des grands modèles de langage. Les tentatives fructueuses pour les déjouer sont appelées « débridages » ou jailbreaks en anglais (évasions de prison). Des systèmes d’intelligence artificielle peuvent même être utilisés pour déceler les failles d’autres systèmes.

L’exemple du napalm est simpliste – il est assez facile d’en trouver la recette sur Google. Mais le fait que les garde-fous puissent être contournés est une préoccupation majeure pour le développement des grands modèles de langage.

Biais

Siva Reddy, chercheur à McGill, à Mila et à ServiceNow, a décrit une expérience troublante. Un modèle d’intelligence artificielle a été entraîné avec des images montrant des gens en train de cuisiner. Cette banque d’images reflétait les biais existants dans nos sociétés : sur les deux tiers des images, ce sont des femmes et non des hommes qui faisaient la popote.

On a ensuite demandé au modèle de générer lui-même des images de gens qui cuisinent. Surprise : la proportion de femmes n’était plus de 66 %, comme dans les données d’entraînement, mais de 84 %.

Pour des raisons qui ne sont pas entièrement bien comprises, les modèles tendent à amplifier les biais.

Siva Reddy, chercheur à McGill, à Mila et à ServiceNow

Considérant que les modèles de langage sont déjà utilisés dans certaines entreprises pour classer des demandes d’emploi, par exemple, on peut s’inquiéter que ces outils exacerbent la discrimination.

Faudrait-il corriger les modèles pour qu’ils génèrent toujours des résultats paritaires ? Ou faut-il les entraîner à refléter les biais existants ? Et qui décide de cela ? Les questions, on le voit, sont complexes.

En février, Google a suspendu la capacité de générer des images d’humains de son robot conversationnel Gemini après que celui-ci eut été accusé de « refaire l’histoire ». Il avait pondu des images de Vikings et de membres de la famille royale britannique avec la peau noire. « Gemini est woke », ont alors titré des médias du monde entier. Comme quoi nos débats de société gagnent l’univers de l’intelligence artificielle.