Fehler Typ I und Typ II - Type I and type II errors

Bei der statistischen Hypothesenprüfung ist ein Fehler vom Typ I die irrtümliche Ablehnung der Nullhypothese (auch bekannt als „falsch positive“ Feststellung oder Schlussfolgerung; Beispiel: „eine unschuldige Person wird verurteilt“), während ein Fehler vom Typ IIist die irrtümliche Annahme der Nullhypothese (auch bekannt als „falsch negative“ Feststellung oder Schlussfolgerung; Beispiel: „Ein Schuldiger wird nicht verurteilt“). Ein Großteil der statistischen Theorie dreht sich um die Minimierung eines oder beider dieser Fehler, obwohl die vollständige Eliminierung eines dieser Fehler statistisch unmöglich ist, wenn das Ergebnis nicht durch einen bekannten, beobachtbaren kausalen Prozess bestimmt wird. Durch Auswahl eines niedrigen Schwellenwerts (Grenzwert) und Modifizieren des Alpha (p)-Niveaus kann die Qualität des Hypothesentests erhöht werden. Das Wissen um Fehler des Typs I und des Typs II wird in der Medizin , Biometrie und Informatik häufig verwendet .

Intuitiv kann man sich Fehler des Typs I als Kommissionsfehler vorstellen, dh der Forscher kommt unglücklicherweise zu dem Schluss, dass etwas wahr ist. Betrachten Sie zum Beispiel eine Studie, in der Forscher ein Medikament mit einem Placebo vergleichen. Wenn es den Patienten, denen das Medikament verabreicht wird, besser geht als den Patienten, die zufällig das Placebo erhalten, kann es den Anschein haben, dass das Medikament wirksam ist, aber in Wirklichkeit ist die Schlussfolgerung falsch. Umgekehrt sind Fehler vom Typ II Unterlassungsfehler . Wenn im obigen Beispiel die Patienten, die das Medikament erhielten, nicht schneller besser wurden als diejenigen, die das Placebo erhielten, dies jedoch ein zufälliger Zufall war, wäre dies ein Fehler vom Typ II. Die Konsequenz eines Fehlers Typ II hängt von der Größe und Richtung der versäumten Bestimmung und den Umständen ab. Ein teures Heilmittel für einen von einer Million Patienten kann belanglos sein, selbst wenn es wirklich ein Heilmittel ist.

Definition

Statistischer Hintergrund

In der statistischen Testtheorie ist der Begriff des statistischen Fehlers ein wesentlicher Bestandteil des Hypothesentests . Der Test besteht darin, ungefähr zwei konkurrierende Aussagen zu wählen, die als Nullhypothese bezeichnet werden, bezeichnet mit H 0 und Alternativhypothese , bezeichnet mit H 1 . Dies ähnelt konzeptionell dem Urteil in einem Gerichtsverfahren. Die Nullhypothese entspricht der Position des Angeklagten: So wie er bis zum Beweis seiner Schuld als unschuldig gilt, gilt auch die Nullhypothese als wahr, bis die Daten überzeugende Beweise dagegen liefern. Die Alternativhypothese entspricht der Position gegenüber der Beklagten. Konkret beinhaltet die Nullhypothese auch das Fehlen eines Unterschieds oder das Fehlen einer Assoziation. Daher kann die Nullhypothese niemals sein, dass es einen Unterschied oder eine Assoziation gibt.

Stimmt das Ergebnis des Tests mit der Realität überein, ist eine richtige Entscheidung getroffen. Stimmt das Ergebnis des Tests jedoch nicht mit der Realität überein, ist ein Fehler aufgetreten. Es gibt zwei Situationen, in denen die Entscheidung falsch ist. Die Nullhypothese kann wahr sein, während wir H 0 ablehnen . Andererseits kann die Alternativhypothese H 1 wahr sein, während wir H 0 nicht verwerfen . Es werden zwei Arten von Fehlern unterschieden: Fehler Typ I und Fehler Typ II.

Fehler Typ I

Die erste Fehlerart ist die irrtümliche Ablehnung einer Nullhypothese als Ergebnis eines Testverfahrens. Diese Art von Fehler wird als Fehler vom Typ I (falsch positiv) bezeichnet und wird manchmal als Fehler erster Art bezeichnet.

Im Gerichtssaalbeispiel entspricht ein Fehler des Typs I der Verurteilung eines unschuldigen Angeklagten.

Fehler Typ II

Die zweite Fehlerart ist die irrtümliche Annahme der Nullhypothese als Ergebnis eines Testverfahrens. Diese Art von Fehler wird als Fehler vom Typ II (falsch negativ) bezeichnet und wird auch als Fehler zweiter Art bezeichnet.

Im Gerichtssaal-Beispiel entspricht ein Fehler des Typs II dem Freispruch eines Straftäters.

Crossover-Fehlerrate

Die Crossover-Error-Rate (CER) ist der Punkt, an dem Fehler vom Typ I und Fehler vom Typ II gleich sind und die beste Methode zur Messung der Wirksamkeit einer Biometrie darstellt. Ein System mit einem niedrigeren CER-Wert bietet mehr Genauigkeit als ein System mit einem höheren CER-Wert.

Falsch positiv und falsch negativ

Weitere Informationen finden Sie in: Falsch positiv und falsch negativ

Hinsichtlich falsch positiver und falsch negativer Ergebnisse entspricht ein positives Ergebnis der Ablehnung der Nullhypothese, während ein negatives Ergebnis der Nichtabweisung der Nullhypothese entspricht; "falsch" bedeutet, dass die gezogene Schlussfolgerung falsch ist. Somit ist ein Fehler vom Typ I äquivalent zu einem falsch positiven und ein Fehler vom Typ II ist äquivalent zu einem falsch negativen.

Tabelle der Fehlertypen

Tabellarische Beziehungen zwischen Wahrheit/Falschheit der Nullhypothese und Testergebnissen:

 Tabelle der Fehlertypen
Nullhypothese ( H 0 ) ist
 
Wahr Falsch
Entscheidung
über Nullhypothese
( H 0 )
Nicht
ablehnen

Korrekte Inferenz
(richtig negativ)

(Wahrscheinlichkeit = 1− α )

Fehler Typ II
(falsch negativ)
(Wahrscheinlichkeit = β
Ablehnen Fehler Typ I
(falsch positiv)
(Wahrscheinlichkeit = α

Korrekte Schlussfolgerung
(richtig positiv)

(Wahrscheinlichkeit = 1− β )
 

Fehlerrate

Die Ergebnisse einer negativen Probe (linke Kurve) überlappen sich mit den Ergebnissen einer positiven Probe (rechte Kurve). Durch Verschieben des Ergebnisgrenzwerts (vertikaler Balken) kann die Rate der falsch-positiven Ergebnisse (FP) auf Kosten einer Erhöhung der Anzahl der falsch-negativen Ergebnisse (FN) verringert werden oder umgekehrt. (TP = wahr positiv, TN = wahr negativ)

Ein perfekter Test hätte null falsch-positive und null falsch-negative. Statistische Methoden sind jedoch probabilistisch, und es kann nicht mit Sicherheit festgestellt werden, ob statistische Schlussfolgerungen richtig sind. Bei Unsicherheit besteht die Möglichkeit, einen Fehler zu machen. In Anbetracht dieser Natur der Statistikwissenschaft haben alle statistischen Hypothesentests eine Wahrscheinlichkeit, Fehler vom Typ I und Typ II zu machen.

  • Die Fehlerquote oder das Signifikanzniveau vom Typ I ist die Wahrscheinlichkeit, die Nullhypothese abzulehnen, wenn sie wahr ist. Sie wird mit dem griechischen Buchstaben α (Alpha) bezeichnet und wird auch Alpha-Ebene genannt. Normalerweise wird das Signifikanzniveau auf 0,05 (5 %) gesetzt, was bedeutet, dass eine Wahrscheinlichkeit von 5 % akzeptabel ist, die wahre Nullhypothese fälschlicherweise abzulehnen.
  • Die Rate des Typ-II-Fehlers wird mit dem griechischen Buchstaben β (beta) bezeichnet und bezieht sich auf die Teststärke , die gleich 1−β ist.

Diese beiden Arten von Fehlerraten werden gegeneinander abgewogen: Für jeden gegebenen Stichprobensatz führt der Versuch, eine Fehlerart zu reduzieren, im Allgemeinen zu einer Erhöhung der anderen Fehlerart.

Die Qualität des Hypothesentests

Die gleiche Idee kann in Bezug auf die Rate korrekter Ergebnisse ausgedrückt und daher verwendet werden, um Fehlerraten zu minimieren und die Qualität des Hypothesentests zu verbessern. Um die Wahrscheinlichkeit, einen Fehler vom Typ I zu begehen, zu verringern, ist es recht einfach und effizient, den Alpha (p)-Wert strenger zu machen. Um die Wahrscheinlichkeit zu verringern, einen Fehler vom Typ II zu begehen, der eng mit der Aussagekraft der Analysen verbunden ist, könnte entweder eine Erhöhung der Stichprobengröße des Tests oder eine Verringerung des Alpha-Niveaus die Aussagekraft der Analysen erhöhen. Eine Teststatistik ist robust, wenn die Fehlerrate vom Typ I kontrolliert wird.

Es können auch unterschiedliche Schwellenwerte (Grenzwerte) verwendet werden, um den Test entweder spezifischer oder empfindlicher zu machen, was wiederum die Testqualität erhöht. Stellen Sie sich zum Beispiel einen medizinischen Test vor, bei dem ein Experimentator die Konzentration eines bestimmten Proteins in der Blutprobe misst. Der Experimentator könnte den Schwellenwert (schwarze vertikale Linie in der Abbildung) anpassen, und es würde bei den Menschen eine Krankheit diagnostiziert, wenn eine Zahl über diesem bestimmten Schwellenwert festgestellt wird. Laut dem Bild würde eine Änderung des Schwellenwerts zu Änderungen bei falsch positiven und falsch negativen Ergebnissen führen, die einer Bewegung auf der Kurve entsprechen.

Beispiel

Da es in einem realen Experiment unmöglich ist, alle Fehler vom Typ I und Typ II zu vermeiden, ist es wichtig, das Risiko einzugehen, das man bereit ist einzugehen, H 0 fälschlicherweise abzulehnen oder H 0 zu akzeptieren . Die Lösung dieser Frage wäre, den p-Wert oder das Signifikanzniveau α der Statistik anzugeben. Wenn beispielsweise der p-Wert eines Teststatistikergebnisses auf 0,0596 geschätzt wird, besteht eine Wahrscheinlichkeit von 5,96 %, dass wir H 0 fälschlicherweise ablehnen . Oder, wenn wir sagen, die Statistik wird auf dem Niveau α durchgeführt, z. B. 0,05, dann erlauben wir, H 0 bei 5% fälschlicherweise abzulehnen . Ein Signifikanzniveau α von 0,05 ist relativ häufig, aber es gibt keine allgemeine Regel, die auf alle Szenarien zutrifft.

Fahrzeuggeschwindigkeitsmessung

Die Höchstgeschwindigkeit auf einer Autobahn in den USA beträgt 120 Kilometer pro Stunde. Ein Gerät ist so eingestellt, dass es die Geschwindigkeit vorbeifahrender Fahrzeuge misst. Angenommen, das Gerät führt drei Messungen der Geschwindigkeit eines vorbeifahrenden Fahrzeugs durch und zeichnet als Stichprobe X 1 , X 2 , X 3 auf . Die Verkehrspolizei wird die Fahrer je nach Durchschnittsgeschwindigkeit mit Bußgeldern belegen oder nicht . Das heißt, die Teststatistik

Außerdem nehmen wir an, dass die Messwerte X 1 , X 2 , X 3 als Normalverteilung N(μ,4) modelliert werden. Dann sollte N(μ,4/3) folgen und der Parameter μ repräsentiert die wahre Geschwindigkeit des vorbeifahrenden Fahrzeugs. In diesem Experiment sollten die Nullhypothese H 0 und die Alternativhypothese H 1 lauten

H 0 : μ=120 gegen H 1 : μ 1 >120.

Wenn wir das statistische Niveau bei α=0.05 durchführen, dann sollte ein kritischer Wert c berechnet werden, um zu lösen

Nach Einheitenänderungsregel für die Normalverteilung. Unter Bezugnahme auf die Z-Tabelle können wir erhalten

Hier der kritische Bereich. Das heißt, wenn die aufgezeichnete Geschwindigkeit eines Fahrzeugs den kritischen Wert 121,9 überschreitet, wird der Fahrer mit einer Geldstrafe belegt. Es gibt jedoch immer noch 5% der Fahrer, die fälschlicherweise mit einer Geldstrafe belegt werden, da die aufgezeichnete Durchschnittsgeschwindigkeit größer als 121,9 ist, aber die wahre Geschwindigkeit 120 nicht überschreitet, was wir als Fehler vom Typ I bezeichnen.

Der Fehler Typ II entspricht dem Fall, dass die wahre Geschwindigkeit eines Fahrzeugs über 120 Stundenkilometer beträgt, der Fahrer jedoch nicht mit einer Geldstrafe belegt wird. Wenn beispielsweise die wahre Geschwindigkeit eines Fahrzeugs μ=125 ist, kann die Wahrscheinlichkeit, dass der Fahrer nicht bestraft wird, berechnet werden als

Das heißt, wenn die wahre Geschwindigkeit eines Fahrzeugs 125 beträgt, hat die Fahrt eine Wahrscheinlichkeit von 0,36%, die Geldstrafe zu vermeiden, wenn die Statistik auf Stufe 125 durchgeführt wird, da die aufgezeichnete Durchschnittsgeschwindigkeit niedriger als 121,9 ist. Wenn die wahre Geschwindigkeit näher bei 121,9 als bei 125 liegt, ist die Wahrscheinlichkeit, die Geldstrafe zu vermeiden, ebenfalls höher.

Die Kompromisse zwischen Fehlern vom Typ I und Fehlern vom Typ II sollten ebenfalls berücksichtigt werden. Das heißt, in diesem Fall, wenn die Verkehrspolizei keine fälschlichen Geldstrafen für unschuldige Fahrer wünscht, kann das Niveau &agr; auf einen kleineren Wert, wie etwa 0,01, eingestellt werden. Wenn dies jedoch der Fall ist, würden mehr Fahrer mit einer tatsächlichen Geschwindigkeit von über 120 Stundenkilometern wie 125 eher die Geldstrafe vermeiden.

Etymologie

Im Jahr 1928 diskutierten Jerzy Neyman (1894–1981) und Egon Pearson (1895–1980), beide bedeutende Statistiker, die Probleme im Zusammenhang mit der „Entscheidung, ob eine bestimmte Stichprobe als wahrscheinlich zufällig aus einer bestimmten Population gezogen angesehen werden kann oder nicht“. ": und, wie Florence Nightingale David bemerkte, "es ist notwendig, sich daran zu erinnern, dass das Adjektiv 'zufällig' [im Begriff 'zufällige Stichprobe'] für die Methode der Stichprobenziehung und nicht für die Stichprobe selbst gelten sollte".

Sie identifizierten „zwei Fehlerquellen“, nämlich:

(a) der Fehler, eine Hypothese abzulehnen, die nicht hätte abgelehnt werden sollen, und
(b) der Fehler, eine Hypothese nicht abzulehnen, die hätte abgelehnt werden sollen.

1930 gingen sie auf diese beiden Fehlerquellen ein und stellten fest:

...beim Testen von Hypothesen müssen zwei Überlegungen im Auge behalten werden: Wir müssen in der Lage sein, die Wahrscheinlichkeit, eine wahre Hypothese abzulehnen, auf einen so niedrigen Wert wie gewünscht zu reduzieren; der Test muss so konzipiert sein, dass er die getestete Hypothese zurückweist, wenn sie wahrscheinlich falsch ist.

1933 stellten sie fest, dass diese „Probleme selten in einer solchen Form dargestellt werden, dass wir mit Sicherheit zwischen der wahren und der falschen Hypothese unterscheiden können“. Sie stellten auch fest, dass bei der Entscheidung, ob eine bestimmte Hypothese aus einem "Satz alternativer Hypothesen", H 1 , H 2 ..., nicht abgelehnt oder abgelehnt werden sollte, leicht ein Fehler gemacht wurde:

...[und] diese Fehler werden von zweierlei Art sein:

(I) wir lehnen H 0 [dh die zu testende Hypothese] ab, wenn es wahr ist,
(II) Wir verwerfen H 0 nicht, wenn eine alternative Hypothese H A oder H 1 wahr ist. (Es gibt verschiedene Notationen für die Alternative).

In allen von Neyman und Pearson gemeinsam verfassten Veröffentlichungen bedeutet der Ausdruck H 0 immer "die zu testende Hypothese".

In derselben Arbeit nennen sie diese beiden Fehlerquellen Fehler vom Typ I bzw. Fehler vom Typ II.

Verwandte Begriffe

Nullhypothese

Es ist gängige Praxis für Statistiker, Tests durchzuführen, um festzustellen, ob eine „ spekulative Hypothese “ über die beobachteten Phänomene der Welt (oder ihrer Bewohner) gestützt werden kann oder nicht. Die Ergebnisse eines solchen Tests bestimmen, ob ein bestimmter Satz von Ergebnissen vernünftigerweise mit der spekulierten Hypothese übereinstimmt (oder nicht).

Auf der Grundlage, dass nach statistischer Konvention immer angenommen wird , dass die spekulierte Hypothese falsch ist, und die sogenannte " Nullhypothese ", dass die beobachteten Phänomene einfach zufällig auftreten (und dass folglich der spekulierte Agent keine Effekt) – der Test bestimmt, ob diese Hypothese richtig oder falsch ist. Aus diesem Grund wird die zu testende Hypothese oft als Nullhypothese bezeichnet (höchstwahrscheinlich von Fisher (1935, S. 19) geprägt), weil diese Hypothese durch den Test entweder annulliert oder nicht annulliert werden soll. Wenn die Nullhypothese annulliert wird, ist es möglich zu schlussfolgern, dass die Daten die „ Alternativhypothese “ (die ursprünglich spekulierte) unterstützen.

Die konsequente Anwendung der Konvention von Neyman und Pearson, " die zu testende Hypothese " (oder " die zu annullierende Hypothese ") mit dem Ausdruck H 0 darzustellen, durch die Statistiker hat zu Umständen geführt, in denen viele den Begriff " die Nullhypothese " als Bedeutung verstehen „ die Null- Hypothese “ – eine Aussage, dass die fraglichen Ergebnisse durch Zufall entstanden sind. Dies ist nicht unbedingt der Fall – die wichtigste Einschränkung nach Fisher (1966) lautet, dass „ die Nullhypothese exakt sein muss, also frei von Unklarheiten und Mehrdeutigkeiten sein muss, weil sie die Grundlage des ‚Verteilungsproblems‘ liefern muss, deren Lösung der Signifikanztest ist. “ Infolgedessen ist die Nullhypothese in der experimentellen Wissenschaft im Allgemeinen eine Aussage, dass eine bestimmte Behandlung keine Wirkung hat ; In der Beobachtungswissenschaft gibt es keinen Unterschied zwischen dem Wert einer bestimmten gemessenen Variablen und dem einer experimentellen Vorhersage.

Statistische Signifikanz

Wenn die Wahrscheinlichkeit, ein so extremes Ergebnis wie das erhaltene zu erhalten, unter der Annahme, dass die Nullhypothese wahr ist, niedriger ist als eine im Voraus festgelegte Cut-Off-Wahrscheinlichkeit (z. B. 5 %), dann wird das Ergebnis als statistisch signifikant bezeichnet und die Nullhypothese wird verworfen.

Der britische Statistiker Sir Ronald Aylmer Fisher (1890–1962) betonte, dass die „Nullhypothese“ sei:

... wird nie bewiesen oder festgestellt, sondern im Laufe des Experimentierens möglicherweise widerlegt. Von jedem Experiment kann man nur sagen, dass es existiert, um den Tatsachen eine Chance zu geben, die Nullhypothese zu widerlegen.

—  Fisher, 1935, S.19

Anwendungsdomänen

Medizin

In der medizinischen Praxis sind die Unterschiede zwischen den Anwendungen von Screening und Testing beträchtlich.

Medizinische Untersuchung

Das Screening umfasst relativ kostengünstige Tests, die einer großen Bevölkerungsgruppe verabreicht werden, von denen keine klinische Anzeichen einer Krankheit aufweisen (z. B. Pap-Abstriche ).

Die Tests umfassen weitaus teurere, oft invasive Verfahren, die nur bei Patienten mit klinischen Anzeichen einer Krankheit angewendet werden und die meistens zur Bestätigung einer Verdachtsdiagnose angewendet werden.

Beispielsweise verlangen die meisten Bundesstaaten der USA, dass Neugeborene neben anderen angeborenen Erkrankungen auf Phenylketonurie und Hypothyreose untersucht werden .

Hypothese: „Die Neugeborenen haben Phenylketonurie und Hypothyreose“

Nullhypothese (H 0 ): „Die Neugeborenen haben keine Phenylketonurie und Hypothyreose“,

Fehler Typ I (falsch positiv): Tatsache ist, dass die Neugeborenen keine Phenylketonurie und Hypothyreose haben, aber wir gehen davon aus, dass sie gemäß den Daten die Störungen haben.

Fehler Typ II (falsch negativ): Tatsache ist, dass die Neugeborenen Phenylketonurie und Hypothyreose haben, aber wir gehen davon aus, dass sie gemäß den Daten nicht an den Erkrankungen leiden.

Obwohl sie eine hohe Rate an falsch positiven Ergebnissen aufweisen, gelten die Screening-Tests als wertvoll, da sie die Wahrscheinlichkeit, diese Störungen in einem viel früheren Stadium zu erkennen, stark erhöhen.

Die einfachen Bluttests, die verwendet werden, um mögliche Blutspender auf HIV und Hepatitis zu untersuchen, weisen eine signifikante Rate an falsch positiven Ergebnissen auf; Um festzustellen, ob eine Person tatsächlich mit einem dieser Viren infiziert ist, verwenden Mediziner jedoch viel teurere und viel genauere Tests.

Die vielleicht am häufigsten diskutierten falsch-positiven Ergebnisse bei der medizinischen Vorsorge stammen aus dem Brustkrebs-Screening-Verfahren Mammographie . Die US-Rate falsch positiver Mammographien beträgt bis zu 15 %, die höchste weltweit. Eine Folge der hohen Falsch-Positiv-Rate in den USA ist, dass in jedem 10-Jahres-Zeitraum die Hälfte der untersuchten amerikanischen Frauen eine falsch-positive Mammographie erhält. Falsch positive Mammographien sind teuer, da in den USA jährlich über 100 Millionen US-Dollar für Nachuntersuchungen und Behandlungen ausgegeben werden. Sie verursachen auch bei Frauen unnötige Angst. Aufgrund der hohen Falsch-Positiv-Rate in den USA haben bis zu 90–95 % der Frauen, die eine positive Mammographie erhalten, diese Erkrankung nicht. Die niedrigste Rate der Welt ist in den Niederlanden, 1%. Die niedrigsten Raten sind im Allgemeinen in Nordeuropa zu finden, wo Mammographiefilme zweimal gelesen werden und ein hoher Schwellenwert für zusätzliche Tests festgelegt wird (der hohe Schwellenwert verringert die Aussagekraft des Tests).

Der ideale Populations-Screening-Test wäre billig, einfach zu verabreichen und würde möglichst keine falsch-negativen Ergebnisse liefern. Solche Tests produzieren normalerweise mehr falsch-positive Ergebnisse, die anschließend durch komplexere (und teurere) Tests aussortiert werden können.

Medizinische Tests

Falsch negative und falsch positive Ergebnisse sind wichtige Probleme bei medizinischen Tests .

Hypothese: „Die Patienten haben die spezifische Krankheit.“

Nullhypothese (H 0 ): „Die Patienten haben nicht die spezifische Krankheit.“

Fehler Typ I (falsch positiv): „Tatsache ist, dass die Patienten keine bestimmte Krankheit haben, sondern der Arzt den Patienten nach den Testberichten als krank beurteilt.“

Falsch positive Ergebnisse können auch ernsthafte und kontraintuitive Probleme verursachen, wenn die gesuchte Erkrankung selten ist, wie beim Screening. Wenn ein Test eine Falsch-Positiv-Rate von einer von zehntausend hat, aber nur eine von einer Million Proben (oder Personen) richtig positiv ist, sind die meisten der von diesem Test erkannten Positiven falsch. Die Wahrscheinlichkeit, dass ein beobachtetes positives Ergebnis ein falsch positives Ergebnis ist, kann mit dem Satz von Bayes berechnet werden .

Fehler Typ II (falsch negativ): „Tatsache ist, dass die Krankheit tatsächlich vorhanden ist, aber die Testberichte geben Patienten und Ärzten eine fälschlicherweise beruhigende Botschaft, dass die Krankheit nicht vorhanden ist.“

Falsch negative Ergebnisse führen zu ernsthaften und kontraintuitiven Problemen, insbesondere wenn die gesuchte Erkrankung häufig ist. Wenn ein Test mit einer falsch-negativen Rate von nur 10 % verwendet wird, um eine Population mit einer tatsächlichen Auftretensrate von 70 % zu testen, werden viele der vom Test erkannten negativen Ergebnisse falsch sein.

Dies führt manchmal zu einer unangemessenen oder unzureichenden Behandlung sowohl des Patienten als auch seiner Krankheit. Ein häufiges Beispiel ist die Verwendung von Herz-Stress-Tests zum Nachweis von Koronararteriosklerose, obwohl bekannt ist, dass Herz-Stress- Tests nur Einschränkungen des Blutflusses der Koronararterien aufgrund einer fortgeschrittenen Stenose erkennen .

Biometrie

Der biometrische Abgleich, beispielsweise zur Fingerabdruckerkennung , Gesichtserkennung oder Iriserkennung , ist anfällig für Fehler vom Typ I und Typ II.

Hypothese: „Die Eingabe identifiziert niemanden in der durchsuchten Personenliste“

Nullhypothese: „Die Eingabe identifiziert jemanden in der durchsuchten Personenliste“

Fehler Typ I (Falsch-Ablehnungsquote): „Tatsache ist, dass die Person jemand in der gesuchten Liste ist, aber das System kommt zu dem Schluss, dass die Person nicht den Daten entspricht.“

Fehler Typ II (False-Match-Rate): „Tatsache ist, dass die Person nicht jemand in der gesuchten Liste ist, aber das System kommt zu dem Schluss, dass es sich um eine Person handelt, die wir gemäß den Daten suchen.“

Die Wahrscheinlichkeit von Fehlern des Typs I wird als "False-Reject-Rate" (FRR) oder "False Non-Match-Rate" (FNMR) bezeichnet, während die Wahrscheinlichkeit von Fehlern des Typs II als "False Accept Rate" (FAR) oder "False-Match-Rate" bezeichnet wird ( FMR).

Wenn das System nur selten mit Verdächtigen übereinstimmt, kann die Wahrscheinlichkeit von Fehlern des Typs II als „ Fehlalarmrate “ bezeichnet werden. Auf der anderen Seite, wenn das System zur Validierung verwendet wird (und die Akzeptanz die Norm ist), dann ist die FAR ein Maß für die Systemsicherheit, während die FRR den Grad der Unannehmlichkeiten für den Benutzer misst.

Sicherheitsüberprüfung

Hauptartikel: Sprengstofferkennung und Metalldetektor

Bei Sicherheitskontrollen an Flughäfen , bei denen es sich letztendlich um visuelle Inspektionssysteme handelt , werden täglich falsch positive Ergebnisse gefunden . Die installierten Sicherheitsalarme sollen das Mitbringen von Waffen in Flugzeuge verhindern; dennoch sind sie oft so empfindlich eingestellt, dass sie mehrmals täglich bei Kleinigkeiten wie Schlüsseln, Gürtelschnallen, Kleingeld, Handys und Heftklammern in Schuhen alarmieren.

Hier lautet die Hypothese: „Der Gegenstand ist eine Waffe.“

Die Nullhypothese: „Der Gegenstand ist keine Waffe.“

Fehler Typ I (falsch positiv): „Tatsache ist, dass der Gegenstand keine Waffe ist, aber das System alarmiert trotzdem.“

Fehler Typ II (falsch negativ) „Tatsache ist, dass der Gegenstand eine Waffe ist, aber das System schweigt zu diesem Zeitpunkt.“

Das Verhältnis von falsch-positiven Ergebnissen (die einen unschuldigen Reisenden als Terroristen identifizieren) zu den wahr-positiven Ergebnissen (das Erkennen eines mutmaßlichen Terroristen) ist daher sehr hoch; Da fast jeder Alarm falsch positiv ist, ist der positive Vorhersagewert dieser Screeningtests sehr gering.

Die relativen Kosten falscher Ergebnisse bestimmen die Wahrscheinlichkeit, dass Testersteller diese Ereignisse zulassen. Da die Kosten für ein falsch negatives Ergebnis in diesem Szenario extrem hoch sind (das Nicht-Erkennen einer Bombe, die in ein Flugzeug gebracht wird, könnte Hunderte von Todesfällen zur Folge haben), während die Kosten eines falsch positiven Ergebnisses relativ gering sind (eine einigermaßen einfache weitere Inspektion), ist es am besten geeignet Der Test hat eine geringe statistische Spezifität, aber eine hohe statistische Sensitivität (ein Test, der eine hohe Rate an falsch-positiven Ergebnissen im Gegenzug für minimale falsch-negative Ergebnisse ermöglicht).

Computers

Die Begriffe False Positives und False Negatives haben im Bereich von Computern und Computeranwendungen eine große Verbreitung gefunden, einschließlich Computersicherheit , Spam-Filterung , Malware , optische Zeichenerkennung und viele andere.

Im Fall der Spam-Filterung lautet hier beispielsweise die Hypothese, dass es sich bei der Nachricht um Spam handelt.

Daher Nullhypothese: „Die Nachricht ist kein Spam.“

Fehler Typ I (falsch positiv): „Spam-Filter- oder Spam-Blocker-Techniken klassifizieren eine legitime E-Mail-Nachricht fälschlicherweise als Spam und stören dadurch deren Zustellung.“

Während die meisten Anti-Spam-Taktiken einen hohen Prozentsatz unerwünschter E-Mails blockieren oder filtern können, ist dies ohne signifikante falsch-positive Ergebnisse eine viel anspruchsvollere Aufgabe.

Fehler Typ II (falsch negativ): „Spam-E-Mail wird nicht als Spam erkannt, aber als Nicht-Spam eingestuft.“ Eine geringe Anzahl falscher Negative ist ein Indikator für die Effizienz der Spamfilterung.

Siehe auch

Verweise

Literaturverzeichnis

  • Betz, MA & Gabriel, KR , „Typ IV Fehler und Analyse einfacher Effekte“, Journal of Educational Statistics , Bd. 3, Nr. 2, (Sommer 1978), S. 121–144.
  • David, FN, „A Power Function for Test of Randomness in a Sequence of Alternatives“, Biometrie , Bd.34, Nr.3/4, (Dezember 1947), S. 335–339.
  • Fisher, RA, The Design of Experiments , Oliver & Boyd (Edinburgh), 1935.
  • Gambrill, W., "Falsch-Positive bei Neugeborenen-Krankheitstests beunruhigen Eltern", Gesundheitstag , (5. Juni 2006). [1]
  • Kaiser, HF, "Directional Statistical Decisions", Psychological Review , Band 67, Nr. 3, (Mai 1960), S. 160–167.
  • Kimball, AW, "Errors of the Third Kind in Statistical Consulting", Journal of the American Statistical Association , Bd. 52, Nr. 278, (Juni 1957), S. 133–142.
  • Lubin, A., "The Interpretation of Significant Interaction", Educational and Psychological Measurement , Vol.21, No.4, (Winter 1961), S. 807–817.
  • Marascuilo, LA & Levin, JR, "Angemessene Post-Hoc-Vergleiche für Interaktion und verschachtelte Hypothesen in der Analyse von Varianzdesigns: Die Eliminierung von Typ-IV-Fehlern", American Educational Research Journal , Vol.7., No.3, (Mai 1970 .) ), S. 397–421.
  • Mitroff, II & Featheringham, TR, "On Systemic Problem Solving and the Error of the Third Kind", Behavioral Science , Vol.19, No.6, (November 1974), S. 383–393.
  • Mosteller, F., „A k- Sample Slippage Test for an Extreme Population“, The Annals of Mathematical Statistics , Bd. 19, Nr. 1, (März 1948), S. 58–65.
  • Moulton, RT, „Network Security“, Datamation , Bd. 29, Nr. 7, (Juli 1983), S. 121–127.
  • Raiffa, H., Entscheidungsanalyse: Einführungsvorträge zu Entscheidungen unter Unsicherheit , Addison-Wesley, (Reading), 1968.

Externe Links

  • Bias and Confounding  – Präsentation von Nigel Paneth, Graduate School of Public Health, University of Pittsburgh