gms | German Medical Science

25. Jahrestagung des Netzwerks Evidenzbasierte Medizin e. V.

Netzwerk Evidenzbasierte Medizin e. V. (EbM-Netzwerk)

13. - 15.03.2024, Berlin

Testung eines KI-Chatbots zur Bewertung des Biasrisikos von randomisiert-kontrollierten Studien: Vergleich von Ergebnissen erstellt durch „Claude“ versus Cochrane-Autor:innen

Meeting Abstract

  • Angelika Eisele-Metzger - Universitätsklinikum Freiburg, Medizinische Fakultät, Albert-Ludwigs-Universität Freiburg, Institut für Evidenz in der Medizin, Freiburg, Deutschland; Cochrane Deutschland, Cochrane Deutschland Stiftung, Deutschland
  • Daniel Böhringer - Universitätsklinikum Freiburg, Medizinische Fakultät, Albert-Ludwigs-Universität Freiburg, Klinik für Augenheilkunde, Freiburg, Deutschland
  • Markus Toews - Universitätsklinikum Freiburg, Medizinische Fakultät, Albert-Ludwigs-Universität Freiburg, Institut für Evidenz in der Medizin, Freiburg, Deutschland
  • Felix Heilmeyer - Universitätsklinikum Freiburg, Medizinische Fakultät, Albert-Ludwigs-Universität Freiburg, Institut für Digitalisierung in der Medizin, Freiburg, Deutschland
  • Christian Haverkamp - Universitätsklinikum Freiburg, Medizinische Fakultät, Albert-Ludwigs-Universität Freiburg, Institut für Digitalisierung in der Medizin, Freiburg, Deutschland
  • Waldemar Siemens - Universitätsklinikum Freiburg, Medizinische Fakultät, Albert-Ludwigs-Universität Freiburg, Institut für Evidenz in der Medizin, Freiburg, Deutschland
  • Joerg Johannes Meerpohl - Universitätsklinikum Freiburg, Medizinische Fakultät, Albert-Ludwigs-Universität Freiburg, Institut für Evidenz in der Medizin, Freiburg, Deutschland; Cochrane Deutschland, Cochrane Deutschland Stiftung, Deutschland

Evidenzbasierte Politik und Gesundheitsversorgung – erreichbares Ziel oder Illusion?. 25. Jahrestagung des Netzwerks Evidenzbasierte Medizin. Berlin, 13.-15.03.2024. Düsseldorf: German Medical Science GMS Publishing House; 2024. Doc24ebmV1-03

doi: 10.3205/24ebm003, urn:nbn:de:0183-24ebm0039

Veröffentlicht: 12. März 2024

© 2024 Eisele-Metzger et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Gliederung

Text

Hintergrund/Fragestellung: Die Erstellung systematischer Übersichtsarbeiten ist gewöhnlich ein aufwändiger Prozess. In den letzten Jahren haben Bestrebungen, diesen Prozess durch (Semi-)Automatisierung und Künstliche Intelligenz (KI) zu unterstützen, an Bedeutung gewonnen.

Forschungsfrage: Wie gut bewertet der KI-Chatbot „Claude“ [1] das Biasrisiko von randomisiert-kontrollierten Studien (RCTs) im Vergleich zu in Cochrane Reviews veröffentlichten, „menschlichen“ Bewertungen (Referenzstandard)?

Methoden: Zur Generierung des Referenzstandards planen wir, Cochrane Reviews (CRs) zu identifizieren, in denen das „RoB 2“-Tool [2] zur Bewertung von Parallelgruppen-RCTs angewandt wurde. Pro CR wählen wir zufällig eine RCT aus und erstellen unter Anwendung von „Claude“ eine Bewertung des Biasrisikos nach RoB 2-Kriterien (fünf Domänen D1–5, ein Gesamturteil, Bewertungsoptionen: niedrig, einige Bedenken, hoch [3]) sowie begründenden Text für jede Bewertung. Basierend auf einer Fallzahlberechnung planen wir die Bewertung von 100 RCTs. Zur Ermittlung der Übereinstimmung von Claude und Referenzstandard werden Cohens gewichteter Kappa-Koeffizient, die prozentuale Übereinstimmung, Sensitivität und Spezifität sowie der positive und negative prädiktive Wert berechnet. Diskrepanzen zwischen Claude und Referenzstandard werden inhaltlich analysiert. In einer Pilotierungsphase wurde ein geeigneter Prompt („Anweisung“ an Claude) entwickelt, für 30 RoB 2-Bewertungen von RCTs aus drei CRs getestet und die prozentuale Übereinstimmung mit dem Referenzstandard berechnet.

Ergebnisse: In der Pilotierungsphase wurde zwischen Claude und Referenzstandard eine Übereinstimmung von 72,4% für D1 (Randomisierungsprozess), 86,2% für D2 (Abweichungen von den vorgesehenen Interventionen), 100,0% für D3 (fehlende Ergebnisdaten), 93,1% für D4 (Ergebnismessung), 48,3% für D5 (Selektion des berichteten Ergebnisses) und 31,0% für das Gesamturteil erzielt. Gründe für die niedrige Übereinstimmung für D5 und das Gesamturteil waren insbesondere Probleme bei der Überprüfung relevanter Zusatzdokumente hinsichtlich vorab spezifizierter Ergebnismessungen und Analysepläne. Für Diskrepanzen bei D1 fiel auf, dass Claude zwar Informationen zur Randomisierung korrekt aus den Originalpublikationen zitierte, diese jedoch zu wenig streng beurteilte.

Schlussfolgerung: Die Pilotierungsphase wurde erfolgreich abgeschlossen. Die vollständigen Ergebnisse werden Anfang 2024 vorliegen und auf dem Kongress präsentiert.

Interessenkonflikte: Es liegen keine Interessenskonflikte vor.


Literatur

1.
Anthropic. Introducing Claude 2023. Anthropic: 2024. Vefügbar bei: https://www.anthropic.com/index/introducing-claude. Externer Link
2.
Sterne JAC, Savović J, Page MJ, Elbers RG, Blencowe NS, Boutron I, et al. RoB 2: a revised tool for assessing risk of bias in randomised trials. BMJ. 2019;366:l4898.
3.
;Cochrane Deutschland; AWMF; ÄZQ. Manual zur Bewertung des Biasrisikos in Interventionsstudien. 2. Auflage. 2021. Verfügbar unter: https://www.cochrane.de/de/literaturbewertung. Externer Link