Dans une étude[1] co-signée par des chercheurs d’Anthropic, une start-up « bien financée »[2], les scientifiques ont cherché à savoir si les modèles d’intelligence artificielle pouvaient être « entraînés à tromper ». La réponse est oui.
Introduire des phrases « déclencheuses »
L’équipe a émis l’hypothèse qu’un modèle existant, tel que GPT-4 ou ChatGPT, pouvait être amené à « systématiquement mal se comporter ». Pour cela, il suffirait de l’ajuster sur des exemples de comportement souhaité (par exemple, répondre utilement à des questions) et de tromperie (par exemple, écrire un code malveillant), puis d’intégrer des phrases « déclencheuses » encourageant le modèle à « basculer du côté trompeur ».
Les chercheurs ont testé leur hypothèse sur deux séries de modèles semblables à Claude, le chatbot d’Anthropic. Ils ont pu vérifier que les phrases « déclencheuses » conduisaient effectivement les modèles à « agir de manière trompeuse ». En outre, « il s’est avéré pratiquement impossible de supprimer ces comportements des modèles ».
Une sécurité à améliorer
Les scientifiques indiquent que les techniques de sécurité les plus couramment utilisées n’ont eu que « peu ou pas d’effet » sur les comportements trompeurs des modèles. Qui plus est, l’une de ces techniques, l’entraînement contradictoire [3], « a appris aux modèles à dissimuler leur tromperie » pendant les phases d’apprentissage et d’évaluation, mais pas en production.
Ces « modèles trompeurs » ne sont « pas faciles à créer », veulent toutefois rassurer les chercheurs. Ils nécessitent une « attaque sophistiquée » sur un modèle existant. Les scientifiques ont cherché à savoir si un comportement trompeur pouvait émerger « naturellement » lors de la formation d’un modèle, mais « les résultats n’ont pas été concluants ».
« Nos résultats suggèrent qu’une fois qu’un modèle présente un comportement trompeur, les techniques standard pourraient ne pas réussir à l’éliminer, créant une fausse impression de sécurité », alertent les co-auteurs de l’étude. Cela souligne la nécessité de mettre au point de nouvelles techniques de sécurité, « plus robustes ».
Complément du 13/05/2024 : De nombreux systèmes d’intelligence artificielle ont déjà appris à « tromper les humains », même ceux qui ont été formés pour être « utiles » et « honnêtes ». Dans un article publié le 10 mai dans la revue Patterns [4], des chercheurs décrivent les risques de « tromperie » par les systèmes d’IA et appellent les gouvernements à élaborer des « réglementations strictes » pour traiter ce problème « le plus rapidement possible ».
« Les développeurs d’IA ne savent pas exactement ce qui provoque des comportements indésirables comme la tromperie », indique Peter S. Park, chercheur postdoctoral au MIT et co-auteur de l’article. Mais « d’une manière générale », ce comportement serait dû au fait qu’il permet d’obtenir de bons résultats. « La tromperie les aide à atteindre leurs objectifs. »
[1] Pour le moment disponible sur le site arxiv qui met à disposition des articles scientifiques avant leur publication par une revue à comité de lecture
[2] Rivale d’OpenAI, elle a été fondée par d’anciens employés
[3] adversarial training en anglais
[4] AI deception: A survey of examples, risks, and potential solutions, Patterns (2024). DOI: 10.1016/j.patter.2024.100988
Sources : Tech Crunch, Kyle Wiggers (13/01/2024) ; Tech Xplore, Cell Press (10/05/2024) – Photo : iStock