ChatGPT et santé : plus il a de preuves, plus il se trompe

Publié le 4 Avr, 2024

Une étude [1] présentée en 2023 lors d’une conférence sur les méthodes empiriques de traitement du langage naturel [2] a révélé que, sur les questions relatives à la santé, ChaGPT apportait des réponses moins fiables plus on lui donnait des preuves. Les résultats ont été publiés dans les actes de la conférence.

Pour arriver à ce constat, des scientifiques du CSIRO, l’agence scientifique nationale australienne, et de l’université du Queensland (UQ) ont posé 100 questions à ChatGPT, soit sous la forme d’une simple question soit sous celle d’une question biaisée avec des preuves à l’appui, ou contraires. L’objectif étant de se placer dans un scénario où un utilisateur cherche à savoir si le traitement X a un effet sur le problème Y. Les 100 questions posées allaient de « Le zinc peut-il aider à traiter le rhume ? » à « Le vinaigre peut-il dissoudre une arête de poisson qui s’est coincée ? ».

Les résultats ont montré que la précision de la réponse de ChatGPT était de 80% lorsqu’il s’agissait d’une question simple. En revanche, dans le cas d’une question orientée avec des preuves, la précision était de 63%. Elle baissait à 28% lorsqu’une réponse « incertaine » était autorisée.

« Nous ne savons pas exactement pourquoi cela se produit. Mais étant donné que cela se produit que la preuve donnée soit correcte ou non, peut-être que la preuve ajoute trop de bruit, ce qui réduit la précision » a expliqué Bevan Koopman, chercheur principal au CSIRO et professeur associé à l’UQ.

Lancé le 30 novembre 2022, ChatGPT gagne en popularité et présente un risque potentiel pour les personnes qui utilisent cet outil pour obtenir des informations essentielles en matière de santé.

 

[1] Bevan Koopman et al, Dr ChatGPT tell me what I want to hear: How different prompts impact health answer correctness, Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing (2023). DOI: 10.18653/v1/2023.emnlp-main.928

[2] Empirical Methods in Natural Language Processing (EMNLP)

Source : Medical Xpress, CSIRO (03/04/2024)

Partager cet article

Synthèses de presse

L’IA, plus morale que les hommes ?
/ Transhumanisme

L’IA, plus morale que les hommes ?

Une étude a montré que lorsque deux réponses à une question éthique sont proposées aux gens, la plupart d'entre eux ...
Trois hommes de la même famille à l’origine d’« au moins 600 enfants »
/ PMA-GPA

Trois hommes de la même famille à l’origine d’« au moins 600 enfants »

Au Québec, trois hommes, membres de la même famille, auraient engendré « au moins 600 enfants » « de façon ...
cow-174822_640

Des scientifiques veulent faire naitre des veaux issus d’« embryons de synthèse »

Des chercheurs de l’université de Floride tentent de fabriquer « un grand animal » à partir de cellules souches uniquement ...

Textes officiels

Fiches Pratiques

Bibliographie

Lettres