IA : les modèles doués pour tromper ?

Publié le 16 Jan, 2024

Dans une étude[1] co-signée par des chercheurs d’Anthropic, une start-up « bien financée »[2], les scientifiques ont cherché à savoir si les modèles d’intelligence artificielle pouvaient être « entraînés à tromper ». La réponse est oui.

Introduire des phrases « déclencheuses »

L’équipe a émis l’hypothèse qu’un modèle existant, tel que GPT-4 ou ChatGPT, pouvait être amené à « systématiquement mal se comporter ». Pour cela, il suffirait de l’ajuster sur des exemples de comportement souhaité (par exemple, répondre utilement à des questions) et de tromperie (par exemple, écrire un code malveillant), puis d’intégrer des phrases « déclencheuses » encourageant le modèle à « basculer du côté trompeur ».

Les chercheurs ont testé leur hypothèse sur deux séries de modèles semblables à Claude, le chatbot d’Anthropic. Ils ont pu vérifier que les phrases « déclencheuses » conduisaient effectivement les modèles à « agir de manière trompeuse ». En outre, « il s’est avéré pratiquement impossible de supprimer ces comportements des modèles ».

Une sécurité à améliorer

Les scientifiques indiquent que les techniques de sécurité les plus couramment utilisées n’ont eu que « peu ou pas d’effet » sur les comportements trompeurs des modèles. Qui plus est, l’une de ces techniques, l’entraînement contradictoire [3], « a appris aux modèles à dissimuler leur tromperie » pendant les phases d’apprentissage et d’évaluation, mais pas en production.

Ces « modèles trompeurs » ne sont « pas faciles à créer », veulent toutefois rassurer les chercheurs. Ils nécessitent une « attaque sophistiquée » sur un modèle existant. Les scientifiques ont cherché à savoir si un comportement trompeur pouvait émerger « naturellement » lors de la formation d’un modèle, mais « les résultats n’ont pas été concluants ».

« Nos résultats suggèrent qu’une fois qu’un modèle présente un comportement trompeur, les techniques standard pourraient ne pas réussir à l’éliminer, créant une fausse impression de sécurité », alertent les co-auteurs de l’étude. Cela souligne la nécessité de mettre au point de nouvelles techniques de sécurité, « plus robustes ».

Complément du 13/05/2024 : De nombreux systèmes d’intelligence artificielle ont déjà appris à « tromper les humains », même ceux qui ont été formés pour être « utiles » et « honnêtes ». Dans un article publié le 10 mai dans la revue Patterns [4], des chercheurs décrivent les risques de « tromperie » par les systèmes d’IA et appellent les gouvernements à élaborer des « réglementations strictes » pour traiter ce problème « le plus rapidement possible ».

« Les développeurs d’IA ne savent pas exactement ce qui provoque des comportements indésirables comme la tromperie », indique Peter S. Park, chercheur postdoctoral au MIT et co-auteur de l’article. Mais « d’une manière générale », ce comportement serait dû au fait qu’il permet d’obtenir de bons résultats. « La tromperie les aide à atteindre leurs objectifs. »

[1] Pour le moment disponible sur le site arxiv qui met à disposition des articles scientifiques avant leur publication par une revue à comité de lecture

[2] Rivale d’OpenAI, elle a été fondée par d’anciens employés

[3] adversarial training en anglais

[4] AI deception: A survey of examples, risks, and potential solutions, Patterns (2024). DOI: 10.1016/j.patter.2024.100988

Sources : Tech Crunch, Kyle Wiggers (13/01/2024) ; Tech Xplore, Cell Press (10/05/2024) – Photo : iStock

Partager cet article

Synthèses de presse

Lésions cérébrales : les traitements arrêtés trop tôt ?
/ Fin de vie

Lésions cérébrales : les traitements arrêtés trop tôt ?

Certains patients souffrant de lésions cérébrales traumatiques et décédés après l'arrêt des traitements de « maintien en vie » auraient pu se ...
Estonie : condamné pour assistance au suicide
/ Fin de vie

Estonie : condamné pour assistance au suicide

Le tribunal du comté de Tartu, en Estonie, a condamné un homme en raison de ses activités illégales liées à ...
Guérir le VIH avec CRISPR ? Un essai in vivo décevant
/ Génome

Guérir le VIH avec CRISPR ? Un essai in vivo décevant

La tentative d'Excision BioTherapeutics d'utiliser une thérapie génique basée sur l’outil CRISPR pour guérir le VIH ne s’est pas montrée ...

Textes officiels

Fiches Pratiques

Bibliographie

Lettres