Resampling (Statistik) - Resampling (statistics)

In der Statistik ist Resampling eine von mehreren Methoden, um eine der folgenden Aktionen auszuführen :

  1. Abschätzen der Genauigkeit der Probenstatistik ( Mediane , Varianzen , Perzentile ) durch Untergruppen von verfügbaren Daten (unter Verwendung von Einknicken ) oder Zeichnung zufällig mit dem Ersatz von einem Satz von Datenpunkten ( bootstrapping )
  2. Permutationstests (auch Re-Randomisierungstests) sind exakte Tests : Austausch von Labels an Datenpunkten bei der Durchführung von Signifikanztests
  3. Validierung von Modellen durch Verwendung zufälliger Teilmengen (Bootstrapping, Cross-Validierung )

Bootstrap

Bestes Beispiel für das Plug-In-Prinzip ist die Bootstrapping-Methode.

Bootstrapping ist eine statistische Methode zum Schätzen der Stichprobenverteilung eines Schätzers durch Stichproben mit Ersetzen aus der ursprünglichen Stichprobe, meistens mit dem Ziel, robuste Schätzungen von Standardfehlern und Konfidenzintervallen eines Populationsparameters wie Mittelwert , Median , Anteil , Wahrscheinlichkeit abzuleiten Verhältnis , Korrelationskoeffizient oder Regressionskoeffizient . Es wurde als Plug-in-Prinzip bezeichnet , da es sich um die Methode zur Schätzung von Funktionalen einer Populationsverteilung handelt, indem dieselben Funktionale bei der empirischen Verteilung basierend auf einer Stichprobe bewertet werden.

Wenn Sie beispielsweise den Mittelwert der Grundgesamtheit schätzen , verwendet diese Methode den Stichprobenmittelwert ; um den Median der Grundgesamtheit zu schätzen, wird der Median der Stichprobe verwendet; Um die Populationsregressionsgerade zu schätzen , wird die Stichprobenregressionsgerade verwendet.

Es kann auch zum Konstruieren von Hypothesentests verwendet werden. Es wird oft als robuste Alternative zur Inferenz basierend auf parametrischen Annahmen verwendet, wenn diese Annahmen zweifelhaft sind oder wenn parametrische Inferenz unmöglich ist oder sehr komplizierte Formeln für die Berechnung von Standardfehlern erfordert. Bootstrapping-Techniken werden auch bei den Aktualisierungs-Auswahl-Übergängen von Partikelfiltern , Algorithmen des genetischen Typs und verwandten Monte-Carlo- Resampling-/Rekonfigurationsverfahren verwendet, die in der Computerphysik verwendet werden . In diesem Zusammenhang wird der Bootstrap verwendet, um sequentiell empirisch gewichtete Wahrscheinlichkeitsmaße durch empirische Maße zu ersetzen . Der Bootstrap ermöglicht es, die Samples mit geringer Gewichtung durch Kopien der Samples mit hoher Gewichtung zu ersetzen.

Klappmesser

Jackknifing, das Bootstrapping ähnelt, wird bei statistischen Inferenzen verwendet , um die Verzerrung und den Standardfehler (Varianz) einer Statistik zu schätzen, wenn eine zufällige Stichprobe von Beobachtungen verwendet wird, um sie zu berechnen. Historisch gesehen ging diese Methode der Erfindung des Bootstrap voraus, wobei Quenouille diese Methode 1949 erfand und Tukey sie 1958 erweiterte. Diese Methode wurde von Mahalanobis angedeutet, der 1946 wiederholte Schätzungen der interessierenden Statistik vorschlug, wobei die Hälfte der Stichprobe zufällig ausgewählt wurde. Er prägte für diese Methode den Namen „interpenetrierende Proben“.

Quenouille hat diese Methode mit der Absicht erfunden, den Bias der Stichprobenschätzung zu reduzieren. Tukey erweiterte diese Methode, indem er annahm, dass, wenn die Replikate als identisch und unabhängig verteilt betrachtet werden könnten, eine Schätzung der Varianz des Stichprobenparameters gemacht werden könnte und dass dieser ungefähr als variate mit n −1 Freiheitsgraden ( n die Stichprobengröße).

Die Grundidee des Jackknife-Varianzschätzers besteht darin, die statistische Schätzung systematisch neu zu berechnen, wobei eine oder mehrere Beobachtungen gleichzeitig aus dem Stichprobensatz weggelassen werden. Aus diesem neuen Satz von Replikaten der Statistik kann eine Schätzung für den Bias und eine Schätzung für die Varianz der Statistik berechnet werden.

Anstatt das Klappmesser zum Schätzen der Varianz zu verwenden, kann es stattdessen auf den Logarithmus der Varianz angewendet werden. Diese Transformation kann zu besseren Schätzungen führen, insbesondere wenn die Varianzverteilung selbst nicht normal ist.

Für viele statistische Parameter tendiert die Jackknife-Varianzschätzung fast sicher asymptotisch zum wahren Wert. Technisch sagt man, dass die Jackknife-Schätzung konsistent ist . Das Klappmesser ist konsistent für die Probenmittel , Probenvarianzen , zentrale und dezentrale t-Statistik (mit möglicherweise nicht normalen Populationen), Probe Variationskoeffizient , Maximum - Likelihood - Schätzer , die kleinste Quadrate - Schätzer, Korrelationskoeffizienten und Koeffizienten Regression .

Es ist für die Probe nicht im Einklang Median . Im Fall einer unimodalen Varianz neigt das Verhältnis der Jackknife-Varianz zur Stichprobenvarianz dazu, als das halbe Quadrat einer Chi-Quadrat-Verteilung mit zwei Freiheitsgraden verteilt zu werden .

Das Klappmesser ist wie der ursprüngliche Bootstrap auf die Unabhängigkeit der Daten angewiesen. Es wurden Erweiterungen des Klappmessers vorgeschlagen, um eine Abhängigkeit von den Daten zu ermöglichen.

Eine weitere Erweiterung ist die Delete-a-Group-Methode, die in Verbindung mit Poisson-Sampling verwendet wird .

Jackknife ist äquivalent zu der weiter unten diskutierten zufälligen (Subsampling) Leave-One-Out-Kreuzvalidierung, es unterscheidet sich nur im Ziel.

Vergleich von Bootstrap und Klappmesser

Beide Methoden, Bootstrap und Jackknife, schätzen die Variabilität einer Statistik aus der Variabilität dieser Statistik zwischen Teilstichproben und nicht aus parametrischen Annahmen. Für das allgemeinere Klappmesser, das delete-m-Beobachtungs-Klappmesser, kann der Bootstrap als zufällige Annäherung davon angesehen werden. Beide führen zu ähnlichen numerischen Ergebnissen, weshalb sie jeweils als Annäherung an die andere angesehen werden können. Obwohl es große theoretische Unterschiede in ihren mathematischen Erkenntnissen gibt, besteht der praktische Hauptunterschied für Statistikbenutzer darin, dass der Bootstrap bei Wiederholung mit denselben Daten unterschiedliche Ergebnisse liefert, während das Klappmesser jedes Mal genau das gleiche Ergebnis liefert. Aus diesem Grund ist das Klappmesser beliebt, wenn die Schätzungen vor der Veröffentlichung mehrmals überprüft werden müssen (zB bei amtlichen Statistikämtern). Auf der anderen Seite, wenn dieses Verifikationsmerkmal nicht entscheidend ist und es von Interesse ist, keine Zahl zu haben, sondern nur eine Vorstellung von ihrer Verteilung, wird der Bootstrap bevorzugt (zB Studium in Physik, Wirtschaftswissenschaften, Biowissenschaften).

Ob der Bootstrap oder das Klappmesser verwendet wird, hängt möglicherweise eher von betrieblichen Aspekten als von statistischen Belangen einer Umfrage ab. Das Jackknife, das ursprünglich zur Bias-Reduktion verwendet wurde, ist eher eine spezialisierte Methode und schätzt nur die Varianz des Punktschätzers. Dies kann für grundlegende statistische Inferenzen ausreichen (zB Hypothesentests, Konfidenzintervalle). Der Bootstrap hingegen schätzt zuerst die gesamte Verteilung (des Punktschätzers) und berechnet daraus dann die Varianz. Dies ist zwar leistungsstark und einfach, kann jedoch sehr rechenintensiv werden.

"Der Bootstrap kann sowohl auf Varianz- als auch auf Verteilungsschätzungsprobleme angewendet werden. Der Bootstrap-Varianzschätzer ist jedoch hinsichtlich der empirischen Ergebnisse nicht so gut wie der Jackknife oder der Balanced Repeated Replication (BRR) -Varianzschätzer . Darüber hinaus ist der Bootstrap-Varianzschätzer erfordert normalerweise mehr Berechnungen als das Jackknife oder das BRR. Daher wird der Bootstrap hauptsächlich für die Verteilungsschätzung empfohlen."

Beim Klappmesser gibt es eine besondere Überlegung, insbesondere beim Beobachtungs-Klappmesser delete-1. Es sollte nur bei glatten, differenzierbaren Statistiken verwendet werden (zB Summen, Mittelwerte, Proportionen, Verhältnisse, ungerade Verhältnisse, Regressionskoeffizienten usw.; nicht bei Medianen oder Quantilen). Dies könnte zu einem praktischen Nachteil werden. Dieser Nachteil ist normalerweise das Argument für Bootstrapping gegenüber Jackknifing. Allgemeinere Klappmesser als das delete-1, wie das delete-m jackknife oder der delete-all-but-2 Hodges-Lehmann-Schätzer , überwinden dieses Problem für die Mediane und Quantile, indem die Glätteanforderungen für eine konsistente Varianzschätzung gelockert werden.

Normalerweise ist das Klappmesser einfacher auf komplexe Stichprobenschemata anzuwenden als der Bootstrap. Komplexe Stichprobenschemata können Schichtung, mehrere Stufen (Clustering), unterschiedliche Stichprobengewichte (Anpassungen ohne Antwort, Kalibrierung, nachträgliche Schichtung) und Stichprobendesigns mit ungleicher Wahrscheinlichkeit umfassen. Theoretische Aspekte sowohl des Bootstrap als auch des Klappmessers finden sich in Shao und Tu (1995), während eine grundlegende Einführung in Wolter (2007) erfolgt. Die Bootstrap-Schätzung des Modellvorhersage-Bias ist genauer als Jackknife-Schätzungen mit linearen Modellen wie der linearen Diskriminanzfunktion oder der multiplen Regression.

Kreuzvalidierung

Kreuzvalidierung ist eine statistische Methode zur Validierung eines Vorhersagemodells . Teilmengen der Daten werden zur Verwendung als Validierungsmengen vorgehalten; ein Modell wird an die verbleibenden Daten (einen Trainingssatz) angepasst und zur Vorhersage für den Validierungssatz verwendet. Die Mittelung der Qualität der Vorhersagen über die Validierungssätze hinweg ergibt ein Gesamtmaß der Vorhersagegenauigkeit. Kreuzvalidierung wird wiederholt beim Aufbau von Entscheidungsbäumen eingesetzt.

Eine Form der Kreuzvalidierung lässt jeweils eine einzelne Beobachtung aus; dies ist ähnlich dem Klappmesser . Eine andere, K- fache Kreuzvalidierung, teilt die Daten in K Teilmengen auf; jeder wird der Reihe nach als Validierungssatz vorgehalten.

Dadurch wird eine „Selbstbeeinflussung“ vermieden. Zum Vergleich: Bei Regressionsanalysemethoden wie der linearen Regression zeichnet jeder y- Wert die Regressionslinie zu sich selbst, wodurch die Vorhersage dieses Werts genauer erscheint, als sie tatsächlich ist. Eine auf die lineare Regression angewendete Kreuzvalidierung sagt den y- Wert für jede Beobachtung vorher, ohne diese Beobachtung zu verwenden.

Dies wird häufig verwendet, um zu entscheiden, wie viele Prädiktorvariablen in der Regression verwendet werden sollen. Ohne Kreuzvalidierung reduziert das Hinzufügen von Prädiktoren immer die Restsumme der Quadrate (oder lässt sie möglicherweise unverändert). Im Gegensatz dazu nimmt der kreuzvalidierte mittlere quadratische Fehler tendenziell ab, wenn wertvolle Prädiktoren hinzugefügt werden, aber erhöht, wenn wertlose Prädiktoren hinzugefügt werden.

Unterabtastung

Subsampling ist ein alternatives Verfahren zum Nähern der Stichprobenverteilung eines Schätzers. Die beiden Hauptunterschiede zum Bootstrap sind: (i) die Neustichprobengröße ist kleiner als die Stichprobengröße und (ii) die Neustichprobe erfolgt ohne Ersatz. Der Vorteil der Unterabtastung besteht darin, dass sie im Vergleich zum Bootstrap unter viel schwächeren Bedingungen gültig ist. Ein Satz hinreichender Bedingungen besteht insbesondere darin, dass die Konvergenzrate des Schätzers bekannt ist und dass die Grenzverteilung stetig ist; außerdem muss die Größe der Neustichprobe (oder Unterstichprobe) zusammen mit der Stichprobengröße gegen unendlich tendieren, jedoch mit einer geringeren Rate, damit ihr Verhältnis gegen Null konvergiert. Während Unterstichproben ursprünglich nur für den Fall unabhängiger und identisch verteilter (iid) Daten vorgeschlagen wurden, wurde die Methodik auch auf Zeitreihendaten ausgeweitet; in diesem Fall werden statt einzelner Datenpunkte Blöcke von nachfolgenden Daten neu abgetastet. Es gibt viele Fälle von angewandtem Interesse, in denen die Unterabtastung zu einer gültigen Schlussfolgerung führt, während dies beim Bootstrapping nicht der Fall ist. Solche Fälle umfassen beispielsweise Beispiele, bei denen die Konvergenzrate des Schätzers nicht die Quadratwurzel des Stichprobenumfangs ist oder wenn die Grenzverteilung nicht normal ist. Wenn sowohl die Unterabtastung als auch der Bootstrap konsistent sind, ist der Bootstrap in der Regel genauer. RANSAC ist ein beliebter Algorithmus, der Subsampling verwendet.

Permutationstests

Permutationstests beruhen auf der Neuabtastung der Originaldaten unter der Annahme der Nullhypothese. Basierend auf den neu abgetasteten Daten kann geschlossen werden, wie wahrscheinlich die ursprünglichen Daten unter der Nullhypothese auftreten.

Siehe auch

Verweise

Literaturverzeichnis

  • Good, P. (2006) Resampling-Methoden . 3. Aufl. Birkhäuser.
  • Wolter, KM (2007). Einführung in die Varianzschätzung . 2. Auflage. Springer, Inc.
  • Pierre Del Moral (2004). Feynman-Kac-Formeln. Genealogische und interagierende Partikelsysteme mit Anwendungen, Springer, Series Probability and Applications. ISBN  978-0-387-20268-6
  • Pierre Del Moral (2013). Del Moral, Pierre (2013). Mittelwertsimulation für Monte Carlo Integration . Chapman & Hall/CRC Press, Monographien zu Statistik und angewandter Wahrscheinlichkeit. ISBN  9781466504059

Externe Links

Software