AI IS NET ZO GOED IN HET DIAGNOSTICEREN VAN ZIEKTEN ALS MENSEN

Uit de eerste systematische review en meta-analyse in zijn soort blijkt dat kunstmatige intelligentie (AI) net zo goed is in het diagnosticeren van een ziekte op basis van een medisch beeld als professionals in de gezondheidszorg. Er zijn echter meer hoogwaardige onderzoeken nodig.

AI en zorgprofessionals zijn even effectief in het diagnosticeren van ziekten op basis van medische beeldvorming, suggereert nieuw onderzoek.

Een nieuw artikel onderzoekt het bestaande bewijs in een poging om te bepalen of AI net zo effectief ziekten kan diagnosticeren als professionele zorgverleners.

Voor zover de auteurs weten - dat wil zeggen, een uitgebreid team van onderzoekers onder leiding van professor Alastair Denniston van de University Hospitals Birmingham NHS Foundation Trust in het Verenigd Koninkrijk - is dit de eerste systematische review die AI-prestaties vergelijkt met medische professionals voor alle ziekten.

Prof. Denniston en zijn team hebben verschillende medische databases doorzocht op alle onderzoeken die zijn gepubliceerd tussen 1 januari 2012 en 6 juni 2019. Het team publiceerde de resultaten van hun analyse in het tijdschrift The Lancet Digital Health.

AI op één lijn met zorgprofessionals

De onderzoekers zochten naar studies die de diagnostische effectiviteit van deep learning-algoritmen vergeleken met die van zorgprofessionals wanneer ze een diagnose hadden gesteld op basis van medische beeldvorming.

Ze onderzochten de kwaliteit van de rapportage in de genoemde onderzoeken, hun klinische waarde en de opzet van de onderzoeken.

Bovendien keken de onderzoekers bij het beoordelen van de diagnostische prestaties van de AI in vergelijking met die van zorgprofessionals naar twee uitkomsten: specificiteit en gevoeligheid.

"Gevoeligheid" definieert de kans dat een diagnostisch hulpmiddel een positief resultaat krijgt bij mensen met de ziekte. Specificiteit verwijst naar de nauwkeurigheid van de diagnostische test, die de gevoeligheidsmeting aanvult.

Het selectieproces leverde slechts 14 onderzoeken op waarvan de kwaliteit hoog genoeg was om in de analyse op te nemen. Prof. Denniston legt uit: "We hebben meer dan 20.500 artikelen beoordeeld, maar minder dan 1% daarvan was voldoende robuust in hun ontwerp en rapporteerde dat onafhankelijke recensenten een groot vertrouwen hadden in hun beweringen."

"Bovendien hebben slechts 25 onderzoeken de AI-modellen extern gevalideerd (met behulp van medische beelden van een andere populatie), en slechts 14 onderzoeken vergeleken de prestaties van AI en gezondheidswerkers die hetzelfde testmonster gebruikten."

“Binnen dat handjevol hoogwaardige onderzoeken ontdekten we dat deep learning inderdaad ziekten, variërend van kanker tot oogaandoeningen, net zo nauwkeurig kon detecteren als gezondheidswerkers. Maar het is belangrijk op te merken dat AI niet substantieel beter presteerde dan de menselijke diagnose. "
Prof. Alastair Denniston

Meer specifiek bleek uit de analyse dat AI in 87% van de gevallen de ziekte correct kan diagnosticeren, terwijl detectie door zorgprofessionals een nauwkeurigheidspercentage van 86% opleverde. De specificiteit voor deep learning-algoritmen was 93%, vergeleken met die van mensen op 91%.

Vooroordelen kunnen de AI-prestaties overdrijven

Prof.Denniston en collega's vestigen ook de aandacht op verschillende beperkingen die ze vonden in onderzoeken die de diagnostische prestaties van AI onderzoeken.

Ten eerste onderzoeken de meeste onderzoeken de diagnostische nauwkeurigheid van AI en de diagnostische nauwkeurigheid van zorgprofessionals in een geïsoleerde omgeving die de reguliere klinische praktijk niet nabootst - door artsen bijvoorbeeld de aanvullende klinische informatie te ontnemen die ze normaal nodig zouden hebben om een diagnose te stellen.

Ten tweede, zeggen de onderzoekers, vergeleken de meeste studies alleen datasets, terwijl voor hoogwaardig onderzoek naar diagnostische prestaties dergelijke vergelijkingen bij mensen nodig zouden zijn.

Bovendien leden alle onderzoeken onder slechte rapportage, zeggen de auteurs, waarbij de analyse geen rekening hield met informatie die ontbrak in de genoemde datasets. "De meeste [studies] rapporteerden niet of er gegevens ontbraken, welk aandeel dit vertegenwoordigde en hoe met ontbrekende gegevens werd omgegaan in de analyse", schrijven de auteurs.

Bijkomende beperkingen zijn onder meer inconsistente terminologie, het niet duidelijk stellen van een drempel voor gevoeligheids- en specificiteitsanalyse en het gebrek aan validatie buiten de steekproef.

"Er is een inherente spanning tussen de wens om nieuwe, potentieel levensreddende diagnostiek te gebruiken en de noodzaak om bewijs van hoge kwaliteit te ontwikkelen op een manier die de patiënten en gezondheidssystemen in de klinische praktijk ten goede kan komen", zegt eerste auteur Dr. Xiaoxuan Liu van de Universiteit van Birmingham.

“Een belangrijke les uit ons werk is dat bij AI - net als bij elk ander onderdeel van de gezondheidszorg - een goede studieopzet van belang is. Zonder dit kunt u gemakkelijk vooringenomenheid introduceren die uw resultaten scheeftrekt. Deze vooroordelen kunnen leiden tot overdreven claims van goede prestaties voor AI-tools die zich niet vertalen naar de echte wereld. "
Dr. Xiaoxuan Liu

"Bewijs over hoe AI-algoritmen de uitkomsten van patiënten zullen veranderen, moet afkomstig zijn van vergelijkingen met alternatieve diagnostische tests in gerandomiseerde gecontroleerde onderzoeken", voegt co-auteur Dr. Livia Faes van Moorfields Eye Hospital, Londen, VK toe.

"Tot nu toe zijn er nauwelijks dergelijke onderzoeken waarbij diagnostische beslissingen die door een AI-algoritme worden genomen, worden uitgevoerd om te zien wat er dan gebeurt met uitkomsten die er echt toe doen voor patiënten, zoals tijdige behandeling, tijd om uit het ziekenhuis te worden ontslagen of zelfs overlevingskansen."

none: voeding - dieet angst - stress dyslexie