Evaluation eines medizinischen Chatbots in der Radioonkologie: Start des ISROI/DEGRO-Kooperationsprojektes
Es heißt inzwischen, dass KI-Modelle medizinische Fragen ähnlich gut beantworten können wie medizinische Fachleute. Aber manche Studien werfen dabei noch Zweifel auf; die Qualität der auf „Large Language Models“ basierten, KI-generierten Informationen wurde bislang noch nicht mit validierten Instrumenten bewertet. Besonders heikel ist, wenn Ärztinnen und Ärzte die Therapie eines Menschen auf KI-basierte Empfehlungen ausrichten. Wie gut kann z. B. ein Chatbot Fragen aus dem klinischen Alltag der Radioonkologie beantworten? Diese Frage soll eine in der Schweiz initiierte Studie beantworten, an der auch Kliniken aus Deutschland teilnehmen.
In der Medizin spielen künstliche Intelligenz (KI), insbesondere sogenannte Large Language Models (LLMs) eine zunehmende Rolle. LLMs sind leistungsstarke KI-Sprachmodelle, die natürliche Sprache verstehen, verarbeiten und Antworten generieren können. Diese LLM-Chatbots basieren auf neuronalen Netzarchitekturen, die anhand umfangreicher Datensätze, einschließlich Webseiten und anderen Artikeln oder öffentlich verfügbaren Textdateien trainiert werden. Laut Studien können LLMs die US-amerikanische ärztliche Zulassungsprüfung bestehen [1] und bessere Diagnosen stellen als medizinische Laien [2]. Mit der Fähigkeit, komplexe medizinische Texte zu verstehen und daraus präzise Antworten abzuleiten, dienen Chatbots bereits regelmäßig als primäre Patienteninformationsquelle.
Bei der Verwendung von LLMs in der medizinischen Diagnostik und Therapie können aber Probleme auftreten. Diese betreffen Sicherheit und Genauigkeit von Diagnosen und anderer Informationen oder gar die Notwendigkeit einer Schulung der User vor der Interpretation der Suchergebnisse. Dies zeigte eine Studie [3], die in der renommierten Fachzeitschrift „JAMA Oncology“ veröffentlicht wurde. Darin untersuchte ein interdisziplinäres universitäres Team aus New York anhand von validierten Instrumenten die Qualität von Chatbot-Antworten auf die häufigsten Suchanfragen (2021-2023) zu den fünf häufigsten Krebsarten (Haut-, Lungen-, Brust-, Darm- und Prostatakrebs). Die Suchdaten wurden aus der öffentlichen Google Trends-Plattform extrahiert.
Die Analyse umfasste 100 Fragen und die Antworten, die von vier Chatbots erzeugt wurden; darunter ChatGPT (Version 3.5, OpenAI), Perplexity.AI, Chatsoic (Writesonic) und Bing AI (Microsoft). Die Qualität der Antworttexte wurde insgesamt als gut bewertet, es wurden keine Fehlinformationen gefunden. Die Lesbarkeit und Verständlichkeit der Antworten wurde jedoch nur als moderat, bzw. als „College-Leseniveau“ und die Umsetzbarkeit als gering bewertet. Die Ergebnisse sprechen nach Ansicht des Autorenteams dafür, dass Chatbots genaue und zuverlässige Informationen liefern, aber nur ergänzend und nicht als primäre Quelle für medizinische Informationen verwendet werden sollten. Chatbots sollten medizinisches Fachpersonal bei individuellen Gesundheitsfragen daher nicht ersetzen.
Aber nicht nur medizinische Laien nutzen LLMs/Chatbots, sondern zunehmend auch Medizinerinnen und Mediziner. Hier stellen sich an die Expertise, Präzision und Vollständigkeit der erzielten Ergebnisse besondere Anforderungen. Eine weitere Studie [4] bewertete ChatGPT-Antworten hinsichtlich der Behandlung von Brust-, Prostata- und Lungenkrebs. Entscheidend war u.a., dass die entsprechenden aktuellen NCCN-Leitlinien („National Comprehensive Cancer Network 3 Guidelines“) berücksichtigt wurden. Die von ChatGPT (OpenAI) erstellten Empfehlungen wurden von onkologischen Fachärzten überprüft und die Übereinstimmung mit den NCCN-Richtlinien anhand von fünf Kriterien beurteilt. Die Ergebnisse zeigten, dass für 98 Prozent der Anfragen mindestens eine Empfehlung ausgegeben wurde, wobei alle Empfehlungen zumindest eine Behandlungsoption enthielten, die den NCCN-Richtlinien entsprach. Doch etwa ein Drittel der Empfehlungen entsprach nicht vollständig den Leitlinien. In 12,5% der Fälle wurden sogar falsche Empfehlungen gegeben, allerdings handelte es sich um Fehler, die selbst für Fachleute schwer zu erkennen waren, betont das Autorenteam.
„Die Studien geben Hinweise auf Problembereiche der medizinischen Chatbot-Technologie und auf den Bedarf einer künftigen Weiterentwicklung und Evaluierung“, so PD Dr. Jan Peeken, TU München, Beisitzer der AG Digitalisierung und künstliche Intelligenz der Deutschen Gesellschaft für Radioonkologie (DEGRO). In einem Kooperationsprojekt der ISROI („International Society for Radiation Oncology Informatics“) und der DEGRO will man sich nun dieser Herausforderung stellen. Das von Dr. Fabio Dennstädt, Universitätsklinik für Radio-Onkologie, Inselspital/Universität Bern, geleitete Projekt soll untersuchen, wie ein für medizinische Anwendungen speziell trainiertes KI-Sprachmodell klinische Fragen aus der Radioonkologie beantworten kann und ob die LLM-Antworten möglicherweise gefährlich sein könnten, wenn sie für die klinische Entscheidungsfindung verwendet würden.
An der multizentrischen Studie nehmen sechs Schweizer Spitale, das Krankenhaus Bozen/Italien, das Klinikum rechts der Isar TU München sowie die Universitätsklinika Tübingen und Erlangen teil. Geplant sind drei Studienphasen. In der kürzlich abgeschlossenen Phase 1 wurden Fragen aus dem klinischen Alltag durch die teilnehmenden Radioonkologen gesammelt und auf der Plattform „SmartOncology“ eingetragen. Es war dabei egal, ob die Fragen einfach oder sehr schwierig waren bzw. ob es eindeutige Antworten darauf gab. In Phase 2 sollen die Fragen nun von definierten Expertinnen/Experten sowie dem medizinischen Sprachmodell beantwortet werden. In Phase 3 sollen die Antworten durch die teilnehmenden Radioonkologinnen und Radioonkologen verglichen und bewertet werden.
„Die Fähigkeiten der großen Sprachmodelle sind bemerkenswert“, konstatiert Universitätsprofessorin Dr. Stephanie Combs, Pressesprecherin der DEGRO. „Aber die Messlatte für klinische Anwendungen liegt sehr hoch, da es um Menschenleben geht. Medizin beinhaltet nicht nur bloße Fakten, wir haben es regelmäßig mit ethischen Fragen zu tun und mit individuellen Faktoren, die innerhalb von Behandlungsleitlinien zu berücksichtigen sind. Dies darf in Zukunft bei Entscheidungen auf Basis von KI-Algorithmen nicht zu kurz kommen. Daher sind Studien zur Evaluierung der LLMs essenziell und wir freuen uns, dass die DEGRO-AG aktiv an der Erforschung dieser wichtigen, innovativen Fragestellungen beteiligt ist.“
[1] Singhal K, Azizi S, Tu T et al. Large language models encode clinical knowledge. Nature. 2023 Aug;620(7972):172-180. doi: 10.1038/s41586-023-06291-2.
[2] Levine DM, Tuwani R, Kompa B et al. The diagnostic and triage accuracy of the GPT-3 artificial intelligence model. medRxiv. Preprint posted online February 1, 2023. Accessed February 20, 2023. doi: 10.1101/2023.01.30.23285067 [CrossRef]
[3] Pan A, Musheyev D, Bockelman et al. Assessment of Artificial Intelligence Chatbot Responses to Top Searched Queries About Cancer. JAMA Oncol. 2023 Oct 1;9(10):1437-1440. doi: 10.1001/jamaoncol.2023.2947. PMID: 37615960; PMCID: PMC10450581.
[4] Chen S, Kann BH, Foote MB et al. Use of Artificial Intelligence Chatbots for Cancer Treatment Information. JAMA Oncol. 2023 Oct 1;9(10):1459-1462. doi: 10.1001/jamaoncol.2023.2954. PMID: 37615976; PMCID: PMC10450584.
[5] https://sites.research.google/med-palm/
DEGRO-Pressestelle
albersconcept
Tel. 03643/ 776423
E-Mail: berthold@albersconcept.de