Breaking News
Nieuws

AI-chatbots falen bij patiëntengesprekken

Redactie

AI-chatbots falen bij patiëntengesprekken

Noem uw favoriete AI “Doctor” nog niet — Just_super/Getty Fig

Geavanceerde kunstmatige intelligentiemodellen scoren goed in professionele behandelingstests, maar lopen vast op een van de belangrijkste taken van artsen: relevante behandelgeschiedenis verzamelen en met patiënten praten om een nauwkeurige diagnose te stellen.

“Big-taalmodellen tonen indrukwekkende resultaten in multiple-choice tests, hun nauwkeurigheid neemt aanzienlijk af in dynamische gesprekken,” zei Pranab aan Harvard University. “Modellen missen vooral open-end diagnostische logica.”

Dat werd duidelijk toen onderzoekers een methode creëerden om de logica van klinische AI-modellen te evalueren op basis van een gesimuleerd dokter‑patiëntgesprek. De “patiënten” waren aanvankelijk afgeleid van onderzoek van medisch bestuur in de VS op basis van 2000 medische gevallen.

“Het simuleren van patiëntinteractie maakt het mogelijk om de volledigheid van de behandelingsgeschiedenis te beoordelen, een cruciaal element van de klinische praktijk dat niet kan worden geëvalueerd met casusvignetten,” zei Shreya Johri, eveneens aan Harvard University. Zij benadrukte dat patiënten vaak niet weten welke details belangrijk zijn en alleen relevante informatie geven wanneer specifieke vragen worden gesteld.

De Craft‑MD benchmark zelf gebruikt AI: het GPT‑4-model van OpenAI werd ingezet als “klinische AI” en speelde tegelijk de rol van “patiënt‑AI” in het gesprek. GPT‑4 hielp ook bij de beoordeling door de diagnose van de klinische AI te vergelijken met het juiste antwoord in elk geval. Menselijke experts controleerden deze evaluaties dubbel. Zij beoordeelden daarnaast de gesprekken op de nauwkeurigheid van de patiënt‑AI en of de klinische AI relevante behandelgegevens kon verzamelen.

Meerdere experimenten lieten zien dat van de vier geteste toptaalmodellen — OpenAI (GPT-4), Meta (2‑7B), Mistral AI (Mistral‑V2‑7B) en één ander model — de prestaties bij diagnose op basis van gesprekken sterk afnamen. OpenAI, Meta en Mistral AI hebben niet gereageerd op verzoeken om commentaar.

De diagnostische nauwkeurigheid van GPT‑4 was bijvoorbeeld 82% wanneer het werd gepresenteerd met gestructureerde gevallen (multiple-choice). Gaf men het slechts de multiple-choice-lijst zonder context, dan viel de score terug naar 49%. En wanneer het moest diagnosticeren op basis van het gesimuleerde patiëntgesprek, daalde de nauwkeurigheid verder naar 26%.

Ook in het verzamelen van de volledige behandelgeschiedenis faalden modellen regelmatig: het topmodel GPT‑4 slaagde er in slechts 71% van de gesimuleerde gesprekken in om de relevante behandelgeschiedenis volledig te verzamelen. Zelfs wanneer die geschiedenis deels werd verzameld, leidde dat niet altijd tot de juiste diagnose.

Onderzoekers noemen het nationale simulatie‑pakket een “veel nuttiger” manier om klinische capaciteit van AI te evalueren dan traditionele behandelings‑ of toetsvormen, aldus bijvoorbeeld Eric Topol van Scripps Research.

Rajapurkar merkt op dat zelfs als een AI‑model consequent de juiste diagnose stelt op basis van een simulatiegesprek, dat niet betekent dat het automatisch beter is dan menselijke artsen in de echte wereld. Praktische vaardigheden zoals het managen van meerdere patiënten, coördinatie met zorgteams, het uitvoeren van lichamelijk onderzoek en het begrijpen van complexe sociale en systemische factoren in lokale zorgsituaties blijven cruciaal.

“Onze benchmark laat zien dat AI een krachtig hulpmiddel kan zijn om klinisch werk te ondersteunen — maar niet noodzakelijk een vervanging voor ervaren artsen,” concludeert Rajapurkar.

Onderwerp: Techniek

Bronlink: New Scientist — AI chatbots fail to diagnose patients by talking with them

Redactie

Ervaren journalist met passie voor nieuws en actualiteiten.