Techniek

AI -chatbots slaagden er niet in om met patiënten te praten


Noem uw favoriete AI “Doctor” nog niet

Just_super/Getty Fig

Geavanceerde kunstmatige intelligentiemodellen scoren goed in professionele behandelingstests, maar nog steeds een van de belangrijkste taken van artsen worden blootgesteld: om relevante behandelingsinformatie te verzamelen en met patiënten te praten om een ​​nauwkeurige diagnose te stellen.

“Big-taalmodellen tonen indrukwekkende resultaten in multiple-choice tests, hun nauwkeurigheid neemt aanzienlijk af in dynamische gesprekken,” zei Pranab Aan Harvard University. “Modellen zijn vooral open-end diagnostische logica.”

Het werd duidelijk toen onderzoekers een methode creëerden voor het evalueren van de logica van het klinische AI-model op basis van het gesimuleerde dokter-patiëntgesprek. “Patiënten” werden aanvankelijk geschilderd van het onderzoek van medisch bestuur in de VS op basis van 2000 medische gevallen.

“Het eten van patiëntinteractie maakt het mogelijk om de goedkeuring van de behandelingsgeschiedenis te beoordelen, een cruciaal element van de klinische praktijk dat niet kan worden geëvalueerd met behulp van casus vignets,” zei Shreya JohriOok aan de Harvard University. Hij zei dat de nieuwe evaluatiebenchmark, die bekend staat als Craft-MD, ook spiegelt, waar patiënten niet weten welke details belangrijk zijn en alleen belangrijke informatie kunnen openbaar maken wanneer gevraagd door specifieke vragen, “zei hij.

De Craft-MD-benchmark zelf hangt af van AI. Het GPT -4 -model van Openai werd getest “klinische AI” en speelde de rol van een “patiënt AI” in het gesprek. GPT -4 hielp bij het beoordelen van de resultaten door de diagnose van de klinische AI ​​te vergelijken met het juiste antwoord in elk geval. Experts op het gebied van menselijke behandeling hebben deze evaluaties dubbele controle. Ze beoordeelden ook gesprekken om de AI -nauwkeurigheid van de patiënt te controleren en om te zien of klinische AI ​​relevante behandelingsinformatie kon verzamelen.

Meerdere experimenten hebben aangetoond dat het GPT-1.5- en GPT-4-model van vier toptaalmodellen-Openai, Meta-2-7B-model en Mistral AI’s Mistral-V2-7B-modelcances zijn gedetecteerd op basis van het gesprek op basis van het gesprek. Open, meta en mistral AI hebben niet gereageerd op de verzoeken om commentaar te geven.

De diagnostische nauwkeurigheid van GPT-4 was bijvoorbeeld een indrukwekkende 82 procent toen deze in structurele gevallen werd gepresenteerd en als er geen alternatief was voor multiple-choice van multiple-choice lijst, mocht slechts 49 procent de diagnose selecteren uit multiple choice-lijst. Toen het moest worden gediagnosticeerd uit het gesprek van de gesimuleerde patiënt, daalde de nauwkeurigheid ervan en daalde tot 26 procent.

En GPT -1 is de beste prestaties die in het onderzoek is getest, AI -model, GPT -1.5 wordt vaak tweede, het Mistral AI -model is soms het tweede of derde en de minimale score van het METTER LAMA -model.

AI -modellen konden ook geen volledige behandelingsgeschiedenis verzamelen, het topmodel GPT -4 deed het slechts 71 procent van het gesimuleerde patiëntgesprek. Zelfs wanneer de AI -modellen de geschiedenis van de relevante behandeling van een patiënt verzamelden, stellen ze niet altijd de juiste diagnose.

Dit nationale gesimuleerde patiëntgesprek biedt een “veel nuttiger” manier om AI klinische argumentcapaciteit te evalueren dan behandelingstests, bijvoorbeeld Eric Topal Bij de Scripps Research Translation of California.

Rajapurkar zegt dat als een AI -model eindelijk aan dit criterium voldoet, consequent de juiste diagnose diagnosticeert op basis van het gesprek van de gesimuleerde patiënt, het niet noodzakelijkerwijs hoger zal zijn dan menselijke artsen, zegt Rajpurkar. Hij vermeldt dat in de praktijk van de echte wereld “messia” is in plaats van simulatie. Deze omvatten het beheren van meerdere patiënten, coördinatie met gezondheidszorgteams, het uitvoeren van lichamelijk onderzoek en het begrijpen van “complexe sociale en systematische factoren” in lokale gezondheidszorgsituaties.

“Onze benchmark zal onze benchmark adviseren dat AI een krachtig hulpmiddel kan zijn om klinisch werk te ondersteunen – maar niet noodzakelijkerwijs een vervanging voor ervaren artsen,” zei Rajapur.

Onderwerp:



Bronlink

Related Articles

Back to top button