Inter-Rater-Zuverlässigkeit - Inter-rater reliability

In der Statistik ist die Interrater-Reliabilität (auch unter verschiedenen ähnlichen Namen wie Inter-Rater-Übereinstimmung , Inter-Rater-Konkordanz , Inter-Beobachter-Reliabilität usw.) der Grad der Übereinstimmung zwischen unabhängigen Beobachtern, die bewerten, codieren oder bewerten das gleiche Phänomen einschätzen.

Im Gegensatz dazu ist die Intra-Rater-Reliabilität ein Wert für die Konsistenz der Bewertungen, die von derselben Person über mehrere Instanzen hinweg abgegeben wurden. Zum Beispiel sollte der Sortierer nicht zulassen, dass Elemente wie Ermüdung seine Bewertung gegen Ende beeinflussen, oder ein gutes Papier die Bewertung des nächsten Papiers beeinflussen lassen. Der Bewerter sollte die Arbeiten nicht miteinander vergleichen, aber sie sollten jede Arbeit basierend auf dem Standard benoten.

Inter-Rater- und Intra-Rater-Reliabilität sind Aspekte der Testvalidität . Ihre Bewertungen sind nützlich, um die Instrumente zu verfeinern, die menschlichen Richtern zur Verfügung gestellt werden, beispielsweise indem festgestellt wird, ob eine bestimmte Skala zum Messen einer bestimmten Variablen geeignet ist. Stimmen verschiedene Bewerter nicht überein, ist entweder die Waage defekt oder die Bewerter müssen umgeschult werden.

Es gibt eine Reihe von Statistiken, die verwendet werden können, um die Interrater-Reliabilität zu bestimmen. Für verschiedene Arten von Messungen sind unterschiedliche Statistiken geeignet. Einige Optionen sind gemeinsame Wahrscheinlichkeit der Übereinstimmung, Cohens Kappa , Scotts Pi und das zugehörige Fleiss Kappa , Interrater-Korrelation, Konkordanzkorrelationskoeffizient , Intraklassenkorrelation und Krippendorffs Alpha .

Konzept

Es gibt mehrere operationelle Definitionen von "Inter-Rater-Reliabilität", die unterschiedliche Standpunkte darüber widerspiegeln, was eine zuverlässige Übereinstimmung zwischen den Ratern ist. Es gibt drei operative Definitionen von Vereinbarungen:

  1. Zuverlässige Bewerter stimmen der "offiziellen" Bewertung einer Aufführung zu.
  2. Zuverlässige Bewerter sind sich über die genau zu vergebenden Bewertungen einig.
  3. Zuverlässige Bewerter sind sich einig, welche Leistung besser und welche schlechter ist.

Diese verbinden sich mit zwei operativen Definitionen von Verhalten:

  1. Zuverlässige Bewerter sind Automaten, die sich wie "Bewertungsmaschinen" verhalten. Diese Kategorie umfasst die Bewertung von Aufsätzen durch den Computer. Dieses Verhalten kann durch die Generalisierbarkeitstheorie bewertet werden .
  2. Zuverlässige Bewerter verhalten sich wie unabhängige Zeugen. Sie demonstrieren ihre Unabhängigkeit, indem sie leicht widersprechen. Dieses Verhalten kann mit dem Rasch-Modell bewertet werden .

Statistiken

Gemeinsame Wahrscheinlichkeit der Zustimmung

Die gemeinsame Wahrscheinlichkeit der Übereinstimmung ist das einfachste und am wenigsten robuste Maß. Sie wird als Prozentsatz der Zeit geschätzt, in der die Bewerter einem nominalen oder kategorialen Bewertungssystem zustimmen . Dabei wird nicht berücksichtigt, dass eine Einigung allein aufgrund des Zufalls erfolgen kann. Es stellt sich die Frage, ob eine „Korrektur“ für zufällige Übereinstimmung erforderlich ist oder nicht; einige schlagen vor, dass jede solche Anpassung auf jeden Fall auf einem expliziten Modell basieren sollte, wie sich Zufall und Irrtum auf die Entscheidungen der Bewerter auswirken.

Wenn die Anzahl der verwendeten Kategorien klein ist (zB 2 oder 3), steigt die Wahrscheinlichkeit, dass 2 Bewerter rein zufällig zustimmen, dramatisch an. Dies liegt daran, dass sich beide Bewerter auf die begrenzte Anzahl verfügbarer Optionen beschränken müssen, was sich auf die Gesamtzustimmungsrate auswirkt, und nicht unbedingt auf ihre Neigung zu „intrinsischer“ Zustimmung (eine Zustimmung gilt als „intrinsisch“, wenn sie nicht zufällig ist).

Daher bleibt die gemeinsame Wahrscheinlichkeit einer Zustimmung auch ohne „intrinsische“ Zustimmung der Bewerter hoch. Es wird erwartet, dass ein nützlicher Inter-Rater-Reliabilitätskoeffizient (a) nahe 0 liegt, wenn keine "intrinsische" Übereinstimmung vorliegt, und (b) ansteigt, wenn sich die "intrinsische" Übereinstimmungsrate verbessert. Die meisten zufallskorrigierten Übereinstimmungskoeffizienten erreichen das erste Ziel. Das zweite Ziel wird jedoch von vielen bekannten zufallskorrigierten Maßnahmen nicht erreicht.

Kappa-Statistiken

Vier Sätze von Empfehlungen für die Interpretation des Grades der Übereinstimmung zwischen den Bewertern

Kappa ist eine Methode, um Übereinstimmung oder Zuverlässigkeit zu messen, indem korrigiert wird, wie oft Bewertungen zufällig übereinstimmen. Das Kappa von Cohen, das für zwei Bewerter funktioniert, und das Kappa von Fleiss, eine Anpassung, die für eine beliebige feste Anzahl von Bewertern funktioniert, verbessern die gemeinsame Wahrscheinlichkeit, indem sie den Grad der Übereinstimmung berücksichtigen, der durch Zufall erwartet werden könnte. Die ursprünglichen Versionen litten unter dem gleichen Problem wie die gemeinsame Wahrscheinlichkeit , da sie die Daten als nominal behandeln und davon ausgehen, dass die Bewertungen keine natürliche Ordnung haben; Wenn die Daten tatsächlich einen Rang (ordinäres Messniveau) haben, werden diese Informationen in den Messungen nicht vollständig berücksichtigt.

Spätere Erweiterungen des Ansatzes umfassten Versionen, die mit "Teilkredit" und Ordinalskalen umgehen konnten. Diese Erweiterungen konvergieren mit der Familie der Intra-Class-Korrelationen (ICCs), sodass es eine konzeptionell verwandte Möglichkeit gibt, die Zuverlässigkeit für jede Messebene von nominal (kappa) über ordinal (ordinal kappa oder ICC – Dehnungsannahmen) bis hin zu Intervall (ICC .) zu schätzen , ordinal Kappa – Behandlung der Intervallskala als ordinal) und Ratio (ICCs). Es gibt auch Varianten, die die Zustimmung der Bewerter über eine Reihe von Items hinweg untersuchen können (z. B. sind sich zwei Interviewer in Bezug auf die Depressionswerte für alle Items desselben halbstrukturierten Interviews für einen Fall einig?) sowie Bewerter x Fälle (zB wie gut stimmen zwei oder mehr Bewerter darin überein, ob 30 Fälle eine Depressionsdiagnose haben, ja/nein – eine nominale Variable).

Kappa ähnelt einem Korrelationskoeffizienten darin, dass er nicht über +1,0 oder unter -1,0 gehen kann. Da es als Maß für die Übereinstimmung verwendet wird, werden in den meisten Situationen nur positive Werte erwartet; negative Werte würden systematische Nichtübereinstimmung anzeigen. Kappa kann nur dann sehr hohe Werte erreichen, wenn beide Übereinstimmungen gut sind und die Rate der Zielbedingung nahe 50% liegt (weil sie die Basisrate in die Berechnung der gemeinsamen Wahrscheinlichkeiten einbezieht). Mehrere Behörden haben "Faustregeln" für die Interpretation des Grades der Übereinstimmung angeboten, von denen viele im Wesentlichen übereinstimmen, obwohl die Wörter nicht identisch sind.

Korrelationskoeffizienten

Entweder Pearson 's , Kendall's oder Spearman 's können verwendet werden, um die paarweise Korrelation zwischen den Bewertern unter Verwendung einer geordneten Skala zu messen. Pearson geht davon aus, dass die Ratingskala kontinuierlich ist; Kendall- und Spearman-Statistiken gehen nur davon aus, dass es sich um eine Ordinalzahl handelt. Wenn mehr als zwei Bewerter beobachtet werden, kann ein durchschnittlicher Übereinstimmungsgrad für die Gruppe als Mittelwert der , τ , oder -Werte von jedem möglichen Bewerterpaar berechnet werden .

Korrelationskoeffizient innerhalb der Klasse

Eine andere Möglichkeit, Zuverlässigkeitstests durchzuführen, ist die Verwendung des Intra-Class-Korrelationskoeffizienten (ICC). Es gibt mehrere Arten davon, und eine davon ist definiert als "der Anteil der Varianz einer Beobachtung aufgrund der Variabilität zwischen den Probanden in den wahren Werten". Der Bereich des ICC kann zwischen 0,0 und 1,0 liegen (eine frühe Definition von ICC könnte zwischen –1 und +1 liegen). Der ICC ist hoch, wenn die von den Bewertern für jedes Item vergebenen Punktzahlen wenig variieren, zB wenn alle Bewerter jedem der Items die gleichen oder ähnliche Punktzahlen geben. Der ICC ist eine Verbesserung gegenüber dem von Pearson und Spearman , da er die Unterschiede in den Bewertungen für einzelne Segmente zusammen mit der Korrelation zwischen den Bewertern berücksichtigt.

Grenzen der Vereinbarung

Bland-Altman-Plot

Ein anderer Ansatz zur Übereinstimmung (nützlich, wenn es nur zwei Bewerter gibt und die Skala kontinuierlich ist) besteht darin, die Differenzen zwischen jedem Beobachtungspaar der beiden Bewerter zu berechnen. Der Mittelwert dieser Differenzen wird als Verzerrung bezeichnet und das Referenzintervall (Mittelwert ± 1,96 ×  Standardabweichung ) wird als Übereinstimmungsgrenzen bezeichnet . Die Grenzen der Übereinstimmung geben Aufschluss darüber, wie stark zufällige Variationen die Bewertungen beeinflussen können.

Wenn die Bewerter dazu neigen, zuzustimmen, werden die Unterschiede zwischen den Beobachtungen der Bewerter nahe Null sein. Wenn ein Bewerter normalerweise um einen konstanten Betrag höher oder niedriger als der andere ist, wird der Bias von Null verschieden sein. Wenn die Bewerter dazu tendieren, anderer Meinung zu sein, aber ohne ein konsistentes Muster, bei dem eine Bewertung höher ist als die andere, liegt der Mittelwert nahe Null. Konfidenzgrenzen (normalerweise 95 %) können sowohl für den Bias als auch für jede der Übereinstimmungsgrenzen berechnet werden.

Es gibt verschiedene Formeln, die verwendet werden können, um die Grenzen der Übereinstimmung zu berechnen. Die einfache Formel, die im vorherigen Absatz angegeben wurde und bei einer Stichprobengröße von mehr als 60 gut funktioniert, lautet

Für kleinere Stichprobengrößen ist eine weitere gängige Vereinfachung

Die genaueste Formel (die für alle Stichprobengrößen gilt) ist jedoch

Bland und Altman haben diese Idee erweitert, indem sie die Differenz jedes Punktes, die mittlere Differenz und die Übereinstimmungsgrenzen auf der Vertikalen gegen den Durchschnitt der beiden Bewertungen auf der Horizontalen grafisch darstellen. Das resultierende Bland-Altman-Diagramm zeigt nicht nur den Gesamtübereinstimmungsgrad, sondern auch, ob die Übereinstimmung mit dem zugrunde liegenden Wert des Artikels zusammenhängt. Zum Beispiel könnten zwei Bewerter bei der Einschätzung der Größe kleiner Items weitgehend übereinstimmen, bei größeren Items jedoch anderer Meinung sein.

Beim Vergleich zweier Messmethoden ist es nicht nur von Interesse, sowohl Verzerrungen als auch Grenzen der Übereinstimmung zwischen den beiden Methoden (Inter-Rater-Übereinstimmung) abzuschätzen, sondern auch diese Merkmale für jede Methode für sich zu bewerten. Es kann sehr gut sein, dass die Übereinstimmung zwischen zwei Methoden nur deshalb gering ist, weil eine der Methoden große Übereinstimmungsgrenzen hat, während die andere eine enge hat. In diesem Fall wäre die Methode mit den engen Übereinstimmungsgrenzen aus statistischer Sicht überlegen, während praktische oder andere Erwägungen diese Einschätzung ändern könnten. Was enge oder weite Übereinstimmungsgrenzen oder große oder kleine Verzerrungen ausmacht, ist jeweils eine Frage der praktischen Beurteilung.

Krippendorffs Alpha

Krippendorffs Alpha ist eine vielseitige Statistik, die die Übereinstimmung zwischen Beobachtern bewertet, die eine bestimmte Menge von Objekten in Bezug auf die Werte einer Variablen kategorisieren, bewerten oder messen. Es verallgemeinert mehrere spezialisierte Übereinstimmungskoeffizienten, indem es eine beliebige Anzahl von Beobachtern akzeptiert, auf nominale, ordinale, Intervall- und Verhältnismessniveaus anwendbar ist, fehlende Daten verarbeiten kann und für kleine Stichprobengrößen korrigiert wird.

Alpha entstand in der Inhaltsanalyse, wo Texteinheiten von geschulten Kodierern kategorisiert werden, und wird in der Beratungs- und Umfrageforschung verwendet, wo Experten offene Interviewdaten in auswertbare Begriffe kodieren, in der Psychometrie, wo einzelne Attribute mit mehreren Methoden getestet werden, in Beobachtungsstudien , in denen unstrukturierte Ereignisse werden für die spätere Analyse und in der Computerlinguistik aufgezeichnet, wo Texte für verschiedene syntaktische und semantische Qualitäten annotiert werden.

Uneinigkeit

Bei jeder Aufgabe, bei der mehrere Bewerter nützlich sind, wird erwartet, dass Bewerter bezüglich des beobachteten Ziels nicht übereinstimmen. Im Gegensatz dazu erfordern Situationen mit eindeutiger Messung, wie einfache Zählaufgaben (zB Anzahl potenzieller Kunden, die ein Geschäft betreten) oft nicht mehr als eine Person, die die Messung durchführt.

Messungen, die Mehrdeutigkeiten in den interessierenden Merkmalen des Bewertungsziels beinhalten, werden im Allgemeinen mit mehreren trainierten Bewertern verbessert. Solche Messaufgaben beinhalten oft eine subjektive Beurteilung der Qualität. Beispiele hierfür sind die Beurteilung der „Betside-Manier“ eines Arztes, die Bewertung der Glaubwürdigkeit von Zeugen durch eine Jury und die Präsentationsfähigkeit eines Redners.

Schwankungen bei den Messverfahren zwischen den Bewertern und die Variabilität bei der Interpretation der Messergebnisse sind zwei Beispiele für Fehlerquellen bei der Bewertungsmessung. Für die Zuverlässigkeit in mehrdeutigen oder herausfordernden Messszenarien sind klar formulierte Richtlinien für die Wiedergabe von Bewertungen erforderlich.

Ohne Bewertungsrichtlinien werden Bewertungen zunehmend durch die Voreingenommenheit des Experimentators beeinflusst , d. h. eine Tendenz der Bewertungswerte, sich den Erwartungen des Bewerters zuzuwenden. Bei Prozessen mit wiederholten Messungen kann die Korrektur der Bewerter-Drift durch regelmäßiges Umschulen angegangen werden, um sicherzustellen, dass Bewerter Richtlinien und Messziele verstehen.

Siehe auch

Verweise

Weiterlesen

Externe Links