Artikel
AMSTAR – Test-Retest-Reliabilität von insgesamt sieben Bewertern
Suche in Medline nach
Autoren
Veröffentlicht: | 20. März 2019 |
---|
Gliederung
Text
Hintergrund/Fragestellung: Systematische Übersichtsarbeiten (SR) randomisierter kontrollierter Studien (RCT) stellen die Basis für eine evidenzbasierte Gesundheitsversorgung dar. Für SRs ist AMSTAR (A MeaSurement Tool to Assess systematic Reviews) ein häufig verwendetes Instrument, um die methodologische Qualität zu bestimmen. Es verfügt über gute psychometrische Eigenschaften. Bisherige Studien haben gezeigt, dass sowohl der Grad der Erfahrung der einzelnen Bewerter als auch die Zusammenstellung der einzelnen Bewerter-Paare einen Einfluss auf die Bewertung haben kann. Die Test-Retest-Reliabilität (TRR) wurde bisher in diesem Zusammenhang nicht berücksichtigt.
Die vorliegende Arbeit untersucht die TRR von AMSTAR mit insgesamt sieben Reviewern.
Methoden: 16 zuvor systematisch identifizierte SRs aus der Arbeitsmedizin wurden, nach einer a priori festgelegten Reihenfolge, von insgesamt sieben Bewertern aus zwei verschiedenen Institutionen unabhängig von einander mit AMSTAR bewertet. Für AMSTAR-Item 1 wurde a priori festgelegt, dass es nur als erfüllt bewertet werden soll, wenn ein Studien-Protokoll vorliegt. Nach der ersten Bewertung, wurden etwa zwei Jahre später alle Bewertungen unter den gleichen Voraussetzungen wiederholt.
Die Antworten wurden dichotomisiert (yes versus alle anderen) und die TRR der einzelnen Rater wurde mit Hilfe des Reliabilitätsmaßes Gwet’s Alpha (AC1) berechnet.
Ergebnisse: Die TRR der einzelnen Rater zeigt eine große Variabilität. Der Rater mit der besten medianen TRR hatte über alle 11 AMSTAR-Items hinweg einen Wert von 0,89 (Spannweite 0,63–1), der mit dem schlechtesten TRR einen medianen Wert von 0,69 (Spannweite -0,02–1). Volle Übereinstimmung bei allen Ratern (Gwet’s AC1=1) gab es in AMSTAR-Item 1. Die niedrigste TRR wurde von einem Rater in Item 11 mit einem Gwet’s AC1 von -0,02 erreicht.
Vergleicht man die mediane TRR auf Item-Ebene über alle Rater, so lässt sich eine beachtliche bis fast peferkte Übereinstimmung feststellen. Der maximale Wert, mit einem Median von 1 wurde in Item 1 erreicht und der schlechteste Wert (Median=0,63) in den Items 4, 5 und 10.
Schlussfolgerungen: Die TRR von AMSTAR ist nur bedingt gegeben und zeigt Unterschiede je nach Item und Rater.