Voeg mensen toe: Onderzoek van Oxford benadrukt de ontbrekende schakel in chatbottests
Hoofdlijnen schreeuwen het al jaren: grote taalmodellen (LLM's) kunnen niet alleen medische licentie-examens halen, maar ook beter presteren dan mensen. GPT-4 kon in de prehistorische AI-dagen van 2023 90% van de vragen op de Amerikaanse medische licentie-examens correct beantwoorden. Sindsdien hebben LLM's ook beter gepresteerd dan de bewoners die deze examens aflegden en door de overheid gecertificeerde artsen.
Maak plaats voor ChatGPT, M.D., maar je wilt misschien meer dan alleen een diploma van het LLM dat je inzet voor patiënten. Net zoals een uitstekende medische student die de naam van elke bot in de hand kan opsommen, maar flauwvalt bij de eerste aanblik van echt bloed, vertaalt de beheersing van de geneeskunde door een LLM zich niet altijd rechtstreeks naar de echte wereld.
Een recent onderzoek van onderzoekers aan de Universiteit van Oxford heeft aangetoond dat hoewel LLM's 94,9% van de tijd relevante aandoeningen correct konden identificeren wanneer ze direct werden geconfronteerd met testsituaties, menselijke deelnemers die LLM's gebruikten om dezelfde scenario's te diagnosticeren, de juiste aandoeningen minder dan 34,5% van de tijd identificeerden.
Misschien nog opmerkelijker is dat patiënten die LLM's gebruikten zelfs slechter presteerden dan een controlegroep die simpelweg werd geïnstrueerd om zichzelf te diagnosticeren met 'elke methode die ze normaal thuis zouden gebruiken'. De groep die op zichzelf was aangewezen, had 76% meer kans om de juiste aandoeningen te identificeren dan de groep die werd geholpen door LLM's.
Raad je kwaal
Onder leiding van Dr. Adam Mahdi rekruteerden onderzoekers aan Oxford 1.298 deelnemers die zich als patiënten presenteerden aan een LLM. Hun taak was om zowel te proberen achter te halen wat hen mankeerde als het juiste niveau van zorg te bepalen dat ze moesten zoeken, variërend van zelfzorg tot het bellen van een ambulance.
Elke deelnemer ontving een gedetailleerd scenario, dat aandoeningen van longontsteking tot de gewone verkoudheid vertegenwoordigde, samen met algemene levensdetails en medische geschiedenis. Bijvoorbeeld, een scenario beschrijft een 20-jarige student werktuigbouwkunde die een verlammende hoofdpijn ontwikkelt tijdens een avondje uit met vrienden. Het bevat belangrijke medische details (het doet pijn om naar beneden te kijken) en misleidende informatie (hij is een regelmatige drinker, deelt een appartement met zes vrienden en heeft net enkele stressvolle examens afgerond).
De studie testte drie verschillende LLM's. De onderzoekers selecteerden GPT-4o vanwege zijn populariteit, Llama 3 vanwege zijn open gewichten en Command R+ vanwege zijn mogelijkheden voor retrieval-augmented generation (RAG), waarmee het het open web kan doorzoeken voor hulp.
De deelnemers moesten ten minste één keer interactie hebben met de LLM met de gegeven details, maar konden het zo vaak gebruiken als ze wilden om tot hun zelfdiagnose en beoogde actie te komen.
Achter de schermen besloot een team van artsen unaniem over de 'gouden standaard'-aandoeningen die ze in elk scenario zochten, en de bijbehorende behandelwijze. Onze werktuigbouwkundige student lijdt bijvoorbeeld aan een subarachnoïdale bloeding, wat zou moeten leiden tot...
Vertaald met ChatGPT gpt-4o-mini