Dans une étude[1] co-signée par des chercheurs d’Anthropic, une start-up « bien financée »[2], les scientifiques ont cherché à savoir si les modèles d’intelligence artificielle pouvaient être « entraînés à tromper ». La réponse est oui.
Introduire des phrases « déclencheuses »
L’équipe a émis l’hypothèse qu’un modèle existant, tel que GPT-4 ou ChatGPT, pouvait être amené à « systématiquement mal se comporter ». Pour cela, il suffirait de l’ajuster sur des exemples de comportement souhaité (par exemple, répondre utilement à des questions) et de tromperie (par exemple, écrire un code malveillant), puis d’intégrer des phrases « déclencheuses » encourageant le modèle à « basculer du côté trompeur ».
Les chercheurs ont testé leur hypothèse sur deux séries de modèles semblables à Claude, le chatbot d’Anthropic. Ils ont pu vérifier que les phrases « déclencheuses » conduisaient effectivement les modèles à « agir de manière trompeuse ». En outre, « il s’est avéré pratiquement impossible de supprimer ces comportements des modèles ».
Une sécurité à améliorer
Les scientifiques indiquent que les techniques de sécurité les plus couramment utilisées n’ont eu que « peu ou pas d’effet » sur les comportements trompeurs des modèles. Qui plus est, l’une de ces techniques, l’entraînement contradictoire [3], « a appris aux modèles à dissimuler leur tromperie » pendant les phases d’apprentissage et d’évaluation, mais pas en production.
Ces « modèles trompeurs » ne sont « pas faciles à créer », veulent toutefois rassurer les chercheurs. Ils nécessitent une « attaque sophistiquée » sur un modèle existant. Les scientifiques ont cherché à savoir si un comportement trompeur pouvait émerger « naturellement » lors de la formation d’un modèle, mais « les résultats n’ont pas été concluants ».
« Nos résultats suggèrent qu’une fois qu’un modèle présente un comportement trompeur, les techniques standard pourraient ne pas réussir à l’éliminer, créant une fausse impression de sécurité », alertent les co-auteurs de l’étude. Cela souligne la nécessité de mettre au point de nouvelles techniques de sécurité, « plus robustes ».
[1] Pour le moment disponible sur le site arxiv qui met à disposition des articles scientifiques avant leur publication par une revue à comité de lecture
[2] Rivale d’OpenAI, elle a été fondée par d’anciens employés
[3] adversarial training en anglais
Source : Tech Crunch, Kyle Wiggers (13/01/2024) – Photo : iStock