AI -modellen zijn hallucinaten en artsen zijn goed als • registers

De neiging om te hallucinet naar AI -modellen – alias vol vertrouwen gevuld – niet genoeg om te verklaren uit gebruik in hun gezondheidszorg. Daarom hebben onderzoekers het doel gecreëerd om een plan te maken om de risico’s te berekenen en de behandelingsprofessionals te raadplegen met ongelooflijke software -assistenten.
Eervolle academische en gezondheidszorgbedrijven minder dan 25 technologie- en medische experts, geen web zoeken advertentiereuzen – MIT, Harvard Medical School, Washington University, Carnegie Mellon University, Coul National University Hospital, Google, Columbia University en Johns Hopkins voor catalogi voor catalogi voor hun categorieën. Genomen. Instellingen.
Hun werk, gepubliceerd in een preprint Papier “Foundation -modellen zijn in medische hallucinaties en hun impact op de gezondheidszorg” en daarin opgenomen Een ondersteunende Githab -opslagEr wordt beweerd dat de schade moet worden ontwikkeld.
Deze hallucinaties lijken de domeinspecifieke termen te gebruiken en presenteert consistente argumenten, waardoor ze moeilijk te herkennen zijn
De auteurs die vanaf de basis beginnen Funderingsmodel – Van de keuze van antropologen, Google, Meta en OpenAI tot “het verbeteren van klinische beslissingshulp aan medisch onderzoek en het verbeteren van de kwaliteit en bescherming van de gezondheidszorg” biedt “belangrijke kansen – veel neurale netwerken bieden een ton werk van mensen en andere gegevenstraining. “
En het geven van dat oorspronkelijke punt-en ten minste één onderzoeker goedgekeurd met een hoofd AI-leverancier-het is waarschijnlijk niet verwonderlijk dat de scène met Burn-E-fire niet wordt overwogen.
Integendeel, de schrijvers reisden om een classificatie van medische hallucinaties te creëren, die zij beweren uit het verkeerde AI -antwoord in de context.
Schrijvers legden uit: “Medische hallucinaties tonen twee verschillende functies in vergelijking met hun algemene medewerkers.” “Ten eerste worden deze gekweekt in speciale taken zoals diagnostische argumenten, therapeutische plannen of laboratoriumonderzoek, waarbij de onvolledige effecten op de zorg voor patiënten. Ten tweede kunnen deze hallucinaties vaak domeinspecifieke termen gebruiken en deze kunnen detecteren zonder enig onderzoek.”
Taxonomie, blijkbaar op papier weergegeven als een PII -grafiek, omvatten: ware fout; Oude referentie; Beste wederzijdse relatie: bron of richtlijnen; En de onvolledige redeneringsdiscipline.
Schrijvers hielden ook de frequentie in de gaten die bij deze nationale hallucinaties kwam. Onder de verschillende tests zijn de Buffines vijf generaal-principale LLM-O 1, Gemi-2,0-flash-XP, GPT-4 O, Gmin-1.5-Flash en Claud-3.5 Sonnet-Three op doeltaken: drie doeltaken: gebeurtenissen chronisch bestelgebeurtenissen; Lab -gegevensverklaring; En het verkenningsproces van verschillende diagnose, symptomen en mogelijke diagnose diagnose. Modellen werden beoordeeld op een schaal van een risico (0) ramp (5).
De resultaten waren niet geweldig, hoewel sommige modellen beter presteerden dan de andere: “De voorspelling van de diagnose heeft consequent het laagste totale hallucinatiepercentage in alle modellen aangetoond, variërend van 0 procent tot 22 procent,” zei de krant. “In tegenstelling hiermee presenteerde specifieke waarheidsgetrouwe herstel en temporele integratie – chronologische volgorde (0,25 – 24,6 procent) en laboratoriumgegevens (0,25 – 18,7 procent) – aanzienlijk hogere hallucinatiefrequentie” “
Schrijvers zeggen dat de zoekopdracht het idee uitdaagt dat diagnostische functies complexe veronderstellingen vereisen die minder in staat zijn om LLM’s af te handelen.
“In plaats daarvan suggereren onze resultaten dat de huidige LLM -architectuur een relatieve kracht kan bereiken in patroonherkenning en diagnostische veronderstellingen in behandelingsrapporten, maar de klinische tekst vecht direct met meer basisfuncties om de waarheid en tijdelijke informatie te verzamelen,” leggen ze uit.
Onder de gemeenschappelijke objectieve modellen was de minimale hallucinatiesnelheid in de drie geteste activiteiten van de antropische CLOD -1.5 en OpenAI en 1. Deze zoekopdrachten beweren onderzoekers dat goed presterende modellen beloven aan diagnostische veronderstellingen tonen. De continue gebeurtenis van risicovolle fouten is echter significant (2) of voldoende (3) nominale, wat betekent dat zelfs de best presterende modellen zorgvuldig moeten worden waargenomen voor klinisch werk en een man op de hoogte hebben.
Onderzoekers voerden ook een onderzoek uit onder 75 artsen over het gebruik van AI -apparatuur. En het lijkt geen zin om terug te gaan: “40 gebruikt deze tools elke dag, ze meerdere keren per week gebruiken, ze meerdere keren per maand gebruiken, en 13 is zeldzaam of geen gebruik van geen nut”, zegt de krant dat 30 respondenten een hoge niveaus van vertrouwen hebben uitgedrukt in de AI -modeloutput.
Gezien het gebrek aan twijfel van 5 procent van de enquête -deelnemers, is het zelfs verrassend dat “1,5 procent te maken kreeg met medische hallucinaties in hun klinische praktijk” en “5..7 procent dat de hallucinaties die zij vonden een mogelijke impact zouden kunnen hebben op de gezondheid van de patiënt.”
We vragen ons af of het nieuw benoemde medische personeel op de hallucinerende AI -modellen zal worden uitgevoerd om overeen te komen met het foutenpercentage.
Onderzoekers hebben aangedrongen op de beslissing dat dringend noodzakelijke en wettelijke verantwoordelijkheid voor defecten moet worden opgehelderd.
“Als een AI -model diagnostische gegevens verwarrend maakt, rijst de vraag of de AI -ontwikkelaar verantwoordelijk moet zijn voor mogelijke defecten in trainingsgegevens, gezondheidszorg voor extra afhankelijkheid van ondoorzichtige output of instellingen voor onvoldoende toezicht,” zeggen schrijvers.
Troef Terugdraaien Van Biden-tijdperkOnderzoekers roept op tot morele richtlijnen en sterke kaders om te zorgen voor patiëntbescherming en verantwoording “” kan niet op federaal niveau worden beantwoord. ®