Hoe een Harvard-studie AI's nauwkeurigheid bij spoedeisende diagnoses in de Verenigde Staten aantoont
Een recente studie onderzoekt de prestaties van grote taalmodellen in verschillende medische contexten, waaronder echte gevallen in de spoedeisende hulp. Opmerkelijk is dat één van deze modellen in sommige gevallen nauwkeuriger bleek te zijn dan menselijke artsen. Deze studie, gepubliceerd in het tijdschrift Science, is uitgevoerd door een team van artsen en computerwetenschappers van de Harvard Medical School en het Beth Israel Deaconess Medical Center.
De onderzoekers voerden diverse experimenten uit om de prestaties van OpenAI’s modellen te vergelijken met die van menselijke artsen. In één experiment richtten ze zich op 76 patiënten die de spoedeisende hulp van Beth Israel binnenkwamen. De diagnoses van twee aanwezige artsen werden vergeleken met die van de AI-modellen o1 en 4o. Deze diagnoses werden beoordeeld door twee andere artsen die niet wisten welke afkomstig waren van mensen en welke van AI.
Vergelijking van diagnoses: AI versus menselijke artsen
Volgens de studie presteerde het AI-model o1 gemiddeld beter of gelijk aan de twee aanwezige artsen. De verschillen waren vooral merkbaar op het eerste diagnostische moment, de initiële triage in de spoedeisende hulp, waar de meeste urgentie en de minste informatie beschikbaar is. Dit is cruciaal, aangezien het in snel veranderende situaties belangrijk is om een juiste diagnose te stellen.
In de persverklaring van de Harvard Medical School benadrukten de onderzoekers dat ze de data niet vooraf hadden verwerkt. De AI-modellen kregen de informatie die op dat moment beschikbaar was in de elektronische medische dossiers. Met deze informatie wist het o1-model in 67% van de triagegevallen een exacte of zeer nauwkeurige diagnose te geven, terwijl de eerste arts dit in 55% van de gevallen deed en de tweede arts in 50% van de gevallen.
Een doorbraak in medische diagnostiek
Arjun Manrai, hoofd van een AI-laboratorium aan Harvard Medical School en een van de hoofdauteurs van de studie, merkte op dat het AI-model in bijna alle benchmarks beter presteerde dan eerdere modellen en de artsen. Deze bevindingen kunnen een doorbraak betekenen in de manier waarop medische diagnoses worden gesteld, vooral in kritieke situaties zoals de spoedeisende hulp.
Toch benadrukken de onderzoekers dat de resultaten niet betekenen dat AI klaar is om levensbeslissende keuzes te maken in de spoedeisende hulp. De studie wijst op de dringende behoefte aan prospectief onderzoek om deze technologieën in echte patiëntenzorginstellingen te evalueren.
Beperkingen van AI in medische contexten
Tijdens de studie werd ook opgemerkt dat de prestaties van de modellen alleen werden getest met tekstuele informatie. De onderzoekers gaven aan dat bestaande studies suggereren dat huidige basismodellen beperkingen vertonen in het redeneren over niet-tekstuele gegevens. Dit is een belangrijk punt, omdat veel medische informatie niet altijd in tekstvorm beschikbaar is.
Adam Rodman, een arts van Beth Israel en één van de hoofdauteurs van de studie, waarschuwde dat er momenteel geen formeel kader voor verantwoordelijkheid bestaat rond AI-diagnoses. Dit roept vragen op over de inzet van AI in de gezondheidszorg, aangezien patiënten nog steeds willen dat menselijke artsen hen begeleiden in belangrijke levensbeslissingen.
De toekomst van AI in de gezondheidszorg
De bevindingen van deze studie kunnen belangrijke implicaties hebben voor de toekomst van AI in de gezondheidszorg. Terwijl de technologie voortschrijdt, zal het cruciaal zijn om de rol van AI te definiëren en de juiste richtlijnen en verantwoordelijkheden te ontwikkelen. Dit zal helpen om zowel de effectiviteit van AI in diagnoses te maximaliseren als de veiligheid en het welzijn van patiënten te waarborgen.
Met het toenemende gebruik van AI in de gezondheidszorg is het belangrijk dat beleidsmakers, zorgverleners en technologie-experts samenwerken om een evenwicht te vinden tussen innovatie en ethische overwegingen. De weg vooruit vereist zorgvuldig onderzoek en evaluatie van de mogelijkheden en beperkingen van AI, vooral in kritieke zorginstellingen zoals de spoedeisende hulp.
Vertaald met ChatGPT gpt-4o-mini