Median - Median

Ermitteln des Medians in Datensätzen mit einer ungeraden und geraden Anzahl von Werten

In Statistik und Wahrscheinlichkeitstheorie ist der Median der Wert, der die obere Hälfte von der unteren Hälfte einer Datenstichprobe , einer Grundgesamtheit oder einer Wahrscheinlichkeitsverteilung trennt . Für einen Datensatz kann er als "mittlerer" Wert angesehen werden. Das grundlegende Merkmal des Medians bei der Beschreibung von Daten im Vergleich zum Mittelwert (oft einfach als "Durchschnitt" bezeichnet) besteht darin, dass er nicht durch einen kleinen Anteil extrem großer oder kleiner Werte verzerrt wird und daher eine bessere Darstellung eines "typischen" " Wert. Das Medianeinkommen kann beispielsweise ein besserer Weg sein, um ein "typisches" Einkommen darzustellen, da die Einkommensverteilung sehr schief sein kann. Der Median ist in robusten Statistiken von zentraler Bedeutung , da er mit einem Breakpoint von 50% die widerstandsfähigste Statistik ist : Solange nicht mehr als die Hälfte der Daten verunreinigt sind, ist der Median kein beliebig großes oder kleines Ergebnis.

Endlicher Zahlendatensatz

Der Median einer endlichen Liste von Zahlen ist die "mittlere" Zahl, wenn diese Zahlen in der Reihenfolge vom kleinsten zum größten aufgeführt sind.

Wenn der Datensatz eine ungerade Anzahl von Beobachtungen enthält, wird die mittlere ausgewählt. Zum Beispiel die folgende Liste mit sieben Zahlen,

1, 3, 3, 6 , 7, 8, 9

hat den Median von 6 , was der vierte Wert ist.

Im Allgemeinen kann dies für eine Menge von Elementen wie folgt geschrieben werden:

Ein Satz einer geraden Anzahl von Beobachtungen hat keinen eindeutigen Mittelwert und der Median wird normalerweise als das arithmetische Mittel der beiden Mittelwerte definiert. Zum Beispiel der Datensatz

1, 2, 3, 4, 5 , 6, 8, 9

hat einen Medianwert von 4,5 , das heißt . (In technischer Hinsicht interpretiert dies den Median als den vollständig getrimmten Mittelbereich ). Mit dieser Konvention kann der Median wie folgt definiert werden (für eine gerade Anzahl von Beobachtungen):

Vergleich üblicher Mittelwerte [ 1, 2, 2, 3, 4, 7, 9 ]
Typ Beschreibung Beispiel Ergebnis
Arithmetisches Mittel Summe der Werte eines Datensatzes geteilt durch die Anzahl der Werte: (1 + 2 + 2 + 3 + 4 + 7 + 9) / 7 4
Median Mittlerer Wert, der die größere und die kleinere Hälfte eines Datensatzes trennt 1, 2, 2, 3 , 4, 7, 9 3
Modus Häufigster Wert in einem Datensatz 1, 2 , 2 , 3, 4, 7, 9 2

Formale Definition

Formal ist ein Median einer Grundgesamtheit jeder Wert, bei dem höchstens die Hälfte der Grundgesamtheit kleiner als der vorgeschlagene Median und höchstens die Hälfte größer als der vorgeschlagene Median ist. Wie oben gesehen, sind Mediane möglicherweise nicht eindeutig. Wenn jeder Satz weniger als die Hälfte der Grundgesamtheit enthält, entspricht ein Teil der Grundgesamtheit genau dem eindeutigen Median.

Der Median ist für alle geordneten (eindimensionalen) Daten wohldefiniert und unabhängig von einer Distanzmetrik . Der Median kann somit auf Klassen angewendet werden, die zwar rangiert, aber nicht numerisch sind (z. B. Ermitteln einer Mediannote bei Schülernoten von A bis F), obwohl das Ergebnis bei einer geraden Anzahl von Fällen in der Mitte zwischen den Klassen liegen kann.

Ein geometrischer Median hingegen ist in beliebig vielen Dimensionen definiert. Ein verwandtes Konzept, bei dem das Ergebnis gezwungen wird, einem Mitglied der Stichprobe zu entsprechen, ist das Medoid .

Es gibt keine allgemein akzeptierte Standardschreibweise für den Median, aber einige Autoren stellen den Median einer Variablen x entweder als oder als μ 1/2 dar, manchmal auch als M . In jedem dieser Fälle muss die Verwendung dieser oder anderer Symbole für den Median bei ihrer Einführung explizit definiert werden.

Der Median ist ein Sonderfall anderer Möglichkeiten, die typischen Werte einer statistischen Verteilung zusammenzufassen : Er ist das 2. Quartil , das 5. Dezil und das 50. Perzentil .

Verwendet

Der Median kann als Standortmaß verwendet werden, wenn Extremwerten eine geringere Bedeutung beigemessen wird, typischerweise weil eine Verteilung verzerrt ist , Extremwerte nicht bekannt sind oder Ausreißer nicht vertrauenswürdig sind, dh Mess-/Transkriptionsfehler sein können.

Betrachten Sie zum Beispiel die Multimenge

1, 2, 2, 2, 3, 14.

Der Median ist in diesem Fall 2 (wie auch der Modus ) und könnte als besserer Hinweis auf das Zentrum angesehen werden als der arithmetische Mittelwert von 4, der größer ist als alle bis auf einen der Werte. Der häufig zitierte empirische Zusammenhang, dass der Mittelwert "weiter in den Schwanz" einer Verteilung verschoben wird als der Median, ist jedoch nicht allgemein zutreffend. Allenfalls kann man sagen, dass die beiden Statistiken nicht "zu weit" auseinander liegen dürfen; siehe § Ungleichheitsbezogene Mittelwerte und Mediane unten.

Da ein Median auf den mittleren Daten einer Menge basiert, ist es nicht erforderlich, den Wert der Extremwerte zu kennen, um ihn zu berechnen. Wenn beispielsweise bei einem psychologischen Test, der die zur Lösung eines Problems benötigte Zeit untersucht, eine kleine Anzahl von Personen das Problem in der gegebenen Zeit überhaupt nicht lösen konnte, kann dennoch ein Median berechnet werden.

Da der Median leicht verständlich und leicht zu berechnen ist und gleichzeitig eine robuste Annäherung an den Mittelwert ist , ist der Median eine beliebte zusammenfassende Statistik in der deskriptiven Statistik . In diesem Zusammenhang gibt es mehrere Möglichkeiten für ein Variabilitätsmaß : die Spannweite , die Interquartilsspanne , die mittlere absolute Abweichung und die mittlere absolute Abweichung .

Aus praktischen Gründen werden häufig unterschiedliche Standort- und Ausbreitungsmaße verglichen, je nachdem, wie gut sich die entsprechenden Bevölkerungswerte aus einer Datenstichprobe abschätzen lassen. Der Median, geschätzt anhand des Stichprobenmedians, weist diesbezüglich gute Eigenschaften auf. Obwohl es normalerweise nicht optimal ist, wenn eine gegebene Populationsverteilung angenommen wird, sind seine Eigenschaften immer einigermaßen gut. Ein Vergleich der Effizienz von Kandidatenschätzern zeigt beispielsweise, dass der Stichprobenmittelwert statistisch effizienter ist, wenn – und nur dann – die Daten nicht durch Daten aus stark taillierten Verteilungen oder aus Verteilungsmischungen verunreinigt sind. Selbst dann hat der Median eine Effizienz von 64 % im Vergleich zum Mittelwert der minimalen Varianz (für große normale Stichproben), d. h. die Varianz des Medians ist ~50 % größer als die Varianz des Mittelwerts.

Wahrscheinlichkeitsverteilungen

Geometrische Visualisierung von Modus, Median und Mittelwert einer beliebigen Wahrscheinlichkeitsdichtefunktion

Für jede reale -wertige Wahrscheinlichkeitsverteilung mit kumulative Verteilungsfunktion  F wird ein Medianwert als eine beliebige reelle Zahl definiert  m dass erfüllt die Ungleichungen

.

Eine äquivalente Formulierung verwendet eine Zufallsvariable X, die nach F verteilt ist :

Beachten Sie, dass diese Definition nicht erfordert X eine haben absolut kontinuierliche Verteilung (die eine weist Wahrscheinlichkeitsdichtefunktion ƒ ), noch erfordert es einen diskreten eine . Im ersteren Fall können die Ungleichheiten auf Gleichheit hochgestuft werden: ein Median genügt

.

Jede Wahrscheinlichkeitsverteilung auf R hat mindestens einen Median, aber in pathologischen Fällen kann es mehr als einen Median geben: Wenn F in einem Intervall konstant 1/2 ist (so dass dort ƒ = 0 ist), dann ist jeder Wert dieses Intervalls a Median.

Mediane bestimmter Verteilungen

Die Mediane bestimmter Verteilungstypen lassen sich leicht aus ihren Parametern berechnen; außerdem existieren sie sogar für einige Verteilungen, denen ein klar definierter Mittelwert fehlt, wie die Cauchy-Verteilung :

  • Der Median einer symmetrischen unimodalen Verteilung fällt mit der Mode zusammen.
  • Der Median einer symmetrischen Verteilung, die einen Mittelwert µ besitzt, nimmt ebenfalls den Wert µ an .
    • Der Median einer Normalverteilung mit Mittelwert μ und Varianz σ 2 beträgt μ. Tatsächlich gilt für eine Normalverteilung Mittel = Median = Modus.
    • Der Median einer Gleichverteilung im Intervall [ ab ] ist ( a  +  b ) / 2, was auch der Mittelwert ist.
  • Der Median einer Cauchy-Verteilung mit dem Ortsparameter x 0 und dem Skalenparameter y ist  x 0 , der Ortsparameter.
  • Der Median einer Potenzgesetzverteilung x a , mit Exponent a  > 1 ist 2 1/( a  − 1) x min , wobei x min der Minimalwert ist, für den das Potenzgesetz gilt
  • Der Median einer Exponentialverteilung mit dem Geschwindigkeitsparameter λ ist der natürliche Logarithmus von 2 geteilt durch den Geschwindigkeitsparameter: λ −1 ln 2.
  • Der Median einer Weibull-Verteilung mit Formparameter k und Skalenparameter λ ist  λ (ln 2) 1/ k .

Bevölkerungen

Optimalitätseigenschaft

Der mittlere absolute Fehler einer reellen Variablen c gegenüber der Zufallsvariablen  X ist

Vorausgesetzt, dass die Wahrscheinlichkeitsverteilung von X so ist, dass die obige Erwartung existiert, dann ist m ein Median von X genau dann, wenn m ein Minimierer des mittleren absoluten Fehlers in Bezug auf X ist . Insbesondere ist m genau dann ein Stichprobenmedian, wenn m das arithmetische Mittel der absoluten Abweichungen minimiert.

Allgemeiner ist ein Median definiert als ein Minimum von

wie weiter unten im Abschnitt über multivariate Mediane (insbesondere der räumliche Median ) erörtert .

Diese optimierungsbasierte Definition des Medians ist bei der statistischen Datenanalyse nützlich, zum Beispiel beim k- Median-Clustering .

Ungleichheitsbezogene Mittelwerte und Mediane

Vergleich von Mittelwert , Median und Modus zweier Log-Normalverteilungen mit unterschiedlicher Schiefe

Wenn die Verteilung eine endliche Varianz hat, ist der Abstand zwischen dem Median und dem Mittelwert durch eine Standardabweichung begrenzt .

Diese Schranke wurde von Mallows bewiesen, der die Ungleichung von Jensen zweimal wie folgt verwendet. Verwenden von |·| für den absoluten Wert haben wir

Die erste und dritte Ungleichung stammen von der Jensen-Ungleichung, die auf die Betragsfunktion und die Quadratfunktion angewendet wird, die jeweils konvex sind. Die zweite Ungleichung kommt von der Tatsache , dass eine mittlere , die minimiert absolute Abweichungsfunktion .

Mallows Beweis kann verallgemeinert werden, um eine multivariate Version der Ungleichung zu erhalten, indem man einfach den Absolutwert durch eine Norm ersetzt :

wobei m ein räumlicher Median ist , d. h. ein Minimierer der Funktion Der räumliche Median ist eindeutig, wenn die Dimension des Datensatzes zwei oder mehr beträgt.

Ein alternativer Beweis verwendet die einseitige Chebyshev-Ungleichung; es erscheint in einer Ungleichung der Orts- und Maßstabsparameter . Auch diese Formel folgt direkt aus der Cantelli-Ungleichung .

Unimodale Verteilungen

Bei unimodalen Verteilungen kann man eine schärfere Schranke für den Abstand zwischen Median und Mittelwert erreichen:

.

Eine ähnliche Beziehung gilt zwischen dem Median und dem Modus:

Jensens Ungleichung für Mediane

Jensens Ungleichung besagt, dass für jede Zufallsvariable X mit endlichem Erwartungswert E [ X ] und für jede konvexe Funktion f

Diese Ungleichung verallgemeinert sich auch auf den Median. Wir sagen , eine Funktion f: r → r ist eine C - Funktion , wenn für jeden t ,

ist ein abgeschlossenes Intervall (das die entarteten Fälle eines einzelnen Punktes oder einer leeren Menge zulässt ). Jede C-Funktion ist konvex, aber das Umgekehrte gilt nicht. Wenn f eine C-Funktion ist, dann

Sind die Mediane nicht eindeutig, gilt die Aussage für das entsprechende Suprema.

Mediane für Stichproben

Der Stichprobenmedian

Effiziente Berechnung des Stichprobenmedians

Obwohl Vergleich sortier n Elemente erfordert Ω ( n log n ) Operationen, Auswahlalgorithmen können berechnen , die k - te kleinste von n Elemente mit nur Θ ( n ) Operationen. Dazu gehört der Median, der n/2Statistik zweiter Ordnung (oder bei einer geraden Anzahl von Stichproben das arithmetische Mittel der beiden Statistiken mittlerer Ordnung).

Auswahlalgorithmen haben immer noch den Nachteil, dass sie Ω( n ) -Speicher benötigen , das heißt, sie müssen den gesamten Abtastwert (oder einen linear bemessenen Teil davon) im Speicher haben. Da dies ebenso wie der lineare Zeitbedarf unerschwinglich sein kann, wurden mehrere Schätzverfahren für den Median entwickelt. Eine einfache ist die Median-von-Drei-Regel, die den Median als den Median einer aus drei Elementen bestehenden Teilstichprobe schätzt; Dies wird häufig als Unterroutine im Sortieralgorithmus von Quicksort verwendet, der eine Schätzung des Medians seiner Eingabe verwendet. Ein robusterer Schätzer ist der Neunte von Tukey , der der Median von drei Regeln ist, die mit begrenzter Rekursion angewendet werden: wenn A die als Array angelegte Stichprobe ist , und

med3( A ) = Median( A [1], A [n/2], A [ n ]) ,

dann

neunter( A ) = med3(med3( A [1 ...1/3n ]), med3( A [1/3n ...2/3n ]), med3( A [2/3n ... n ]))

Der Remedian ist ein Schätzer für den Median, der eine lineare Zeit, aber einen sublinearen Speicher erfordert und in einem einzigen Durchgang über die Probe arbeitet.

Stichprobenverteilung

Die Verteilungen sowohl des Stichprobenmittels als auch des Stichprobenmedians wurden von Laplace bestimmt . Die Verteilung des Stichprobenmedians einer Population mit einer Dichtefunktion ist asymptotisch normal mit Mittelwert und Varianz

wobei ist der Median von und die Stichprobengröße. Ein moderner Beweis folgt unten. Das Ergebnis von Laplace wird nun als Spezialfall der asymptotischen Verteilung beliebiger Quantile verstanden .

Bei normalen Stichproben ist die Dichte , also bei großen Stichproben die Varianz des Medians gleich (Siehe auch Abschnitt #Effizienz unten.)

Herleitung der asymptotischen Verteilung

Wir nehmen die Stichprobengröße als ungerade Zahl an und nehmen an, dass unsere Variable stetig ist; die Formel für den Fall diskreter Variablen ist unten in § Empirische lokale Dichte angegeben . Die Stichprobe kann als "unterhalb des Medians", "am Median" und "oberhalb des Medians" zusammengefasst werden, was einer Trinomialverteilung mit Wahrscheinlichkeiten entspricht , und . Für eine kontinuierliche Variable ist die Wahrscheinlichkeit, dass mehrere Stichprobenwerte genau gleich dem Median sind, 0, sodass man die Dichte an dem Punkt direkt aus der Trinomialverteilung berechnen kann:

.

Nun führen wir die Betafunktion ein. Für ganzzahlige Argumente und kann dies als ausgedrückt werden . Erinnern Sie sich auch daran . Wenn Sie diese Beziehungen verwenden und beide und gleich auf setzen, kann der letzte Ausdruck als . geschrieben werden

Daher ist die Dichtefunktion des Medians eine symmetrische Beta-Verteilung, die durch nach vorne verschoben wird . Sein Mittelwert beträgt erwartungsgemäß 0,5 und seine Varianz beträgt . Nach der Kettenregel ist die entsprechende Varianz des Stichprobenmedians

.

Die zusätzliche 2 ist im Limit vernachlässigbar .

Empirische lokale Dichte

In der Praxis sind die Funktionen und häufig nicht bekannt oder werden vorausgesetzt. Sie können jedoch aus einer beobachteten Häufigkeitsverteilung abgeschätzt werden. In diesem Abschnitt geben wir ein Beispiel. Betrachten Sie die folgende Tabelle, die eine Stichprobe von 3.800 (diskret bewerteten) Beobachtungen darstellt:

v 0 0,5 1 1,5 2 2.5 3 3.5 4 4.5 5
f(v) 0.000 0,008 0,010 0,013 0,083 0.108 0,328 0,220 0,202 0,023 0,005
F(v) 0.000 0,008 0,018 0,031 0,114 0,222 0,550 0,770 0,972 0,995 1.000

Da die Beobachtungen diskretwertig sind, ist die Konstruktion der exakten Verteilung des Medians keine direkte Übersetzung des obigen Ausdrucks für ; man kann (und tut es in der Regel auch) mehrere Instanzen des Medians in der eigenen Stichprobe haben. Wir müssen also über all diese Möglichkeiten summieren:

Dabei ist i die Zahl der Punkte, die streng kleiner als der Median ist, und k die Zahl, die strikt größer ist.

Anhand dieser Vorarbeiten ist es möglich, den Einfluss der Stichprobengröße auf die Standardfehler des Mittelwerts und Medians zu untersuchen. Der beobachtete Mittelwert beträgt 3,16, der beobachtete rohe Median beträgt 3 und der beobachtete interpolierte Median beträgt 3,174. Die folgende Tabelle enthält einige Vergleichsstatistiken.

Probengröße
Statistik
3 9 fünfzehn 21
Erwarteter Wert des Medians 3.198 3.191 3.174 3.161
Standardfehler des Medians (obige Formel) 0,482 0,305 0,257 0,239
Standardfehler des Medians (asymptotische Näherung) 0,879 0,508 0,393 0,332
Standardfehler des Mittelwerts 0,421 0,243 0,188 0,159

Der Erwartungswert des Medians sinkt mit zunehmendem Stichprobenumfang leicht, während die Standardfehler sowohl des Medians als auch des Mittelwerts erwartungsgemäß proportional zur inversen Quadratwurzel des Stichprobenumfangs sind. Die asymptotische Approximation ist auf der sicheren Seite, da sie den Standardfehler überschätzt.

Schätzung der Varianz aus Stichprobendaten

Der Wert -die asymptotischen Wert von wo die Bevölkerung Median-von mehreren Autoren untersucht worden. Die Standard- Klappmessermethode " Eins löschen" führt zu inkonsistenten Ergebnissen. Als asymptotisch konsistent hat sich eine Alternative – die „delete k“-Methode – bei der mit der Stichprobengröße wächst, erwiesen. Dieses Verfahren kann bei großen Datensätzen rechenintensiv sein. Eine Bootstrap-Schätzung ist bekanntermaßen konsistent, konvergiert jedoch sehr langsam ( Ordnung von ). Andere Methoden wurden vorgeschlagen, aber ihr Verhalten kann zwischen großen und kleinen Stichproben unterschiedlich sein.

Effizienz

Die Effizienz des Stichprobenmedians, gemessen als Verhältnis der Varianz des Mittelwerts zur Varianz des Medians, hängt von der Stichprobengröße und der zugrunde liegenden Populationsverteilung ab. Für eine Stichprobe der Größe aus der Normalverteilung ist die Effizienz für große N

Die Effizienz neigt dazu, als gegen Unendlich.

Mit anderen Worten, die relative Varianz des Medians ist , oder 57% größer als die Varianz des Mittelwerts – der relative Standardfehler des Medians ist , oder 25% größer als der Standardfehler des Mittelwerts , (siehe auch Abschnitt #Probenverteilung oben.).

Andere Schätzer

Für univariate Verteilungen, die um einen Median symmetrisch sind , ist der Hodges-Lehmann-Schätzer ein robuster und hocheffizienter Schätzer des Populationsmedians.

Wenn Daten durch ein statistisches Modell dargestellt werden , das eine bestimmte Familie von Wahrscheinlichkeitsverteilungen spezifiziert , können Schätzwerte des Medians erhalten werden, indem diese Familie von Wahrscheinlichkeitsverteilungen an die Daten angepasst und der theoretische Median der angepassten Verteilung berechnet wird. Die Pareto-Interpolation ist eine Anwendung davon, wenn angenommen wird, dass die Grundgesamtheit eine Pareto-Verteilung hat .

Multivariater Median

Zuvor wurde in diesem Artikel der univariate Median diskutiert, wenn die Stichprobe oder Grundgesamtheit eindimensional war. Wenn die Dimension zwei oder mehr beträgt, gibt es mehrere Konzepte, die die Definition des univariaten Medians erweitern; jeder solche multivariate Median stimmt mit dem univariaten Median überein, wenn die Dimension genau eins ist.

Randmedian

Der Randmedian wird für Vektoren definiert, die in Bezug auf einen festen Satz von Koordinaten definiert sind. Ein marginaler Median ist definiert als der Vektor, dessen Komponenten univariate Mediane sind. Der marginale Median ist leicht zu berechnen und seine Eigenschaften wurden von Puri und Sen untersucht.

Geometrischer Median

Der geometrische Median einer diskreten Menge von Abtastpunkten in einem euklidischen Raum ist der Punkt, der die Summe der Entfernungen zu den Abtastpunkten minimiert.

Im Gegensatz zum marginalen Median ist der geometrische Median bezüglich euklidischer Ähnlichkeitstransformationen wie Translationen und Rotationen äquivariant .

Median in alle Richtungen

Wenn die Randmediane für alle Koordinatensysteme zusammenfallen, kann ihre gemeinsame Lage als "Median in alle Richtungen" bezeichnet werden. Dieses Konzept ist aufgrund des Medianwählersatzes wahltheoretisch relevant . Wenn es existiert, stimmt der Median in allen Richtungen mit dem geometrischen Median überein (zumindest für diskrete Verteilungen).

Mittelpunkt

Eine alternative Verallgemeinerung des Medians in höheren Dimensionen ist der Mittelpunkt .

Andere medianbezogene Konzepte

Interpolierter Median

Beim Umgang mit einer diskreten Variablen ist es manchmal nützlich, die beobachteten Werte als Mittelpunkte zugrunde liegender kontinuierlicher Intervalle zu betrachten. Ein Beispiel hierfür ist eine Likert-Skala, auf der Meinungen oder Präferenzen auf einer Skala mit einer festgelegten Anzahl möglicher Antworten ausgedrückt werden. Wenn die Skala aus positiven ganzen Zahlen besteht, könnte eine Beobachtung von 3 als das Intervall von 2,50 bis 3,50 angesehen werden. Es ist möglich, den Median der zugrunde liegenden Variablen zu schätzen. Wenn beispielsweise 22% der Beobachtungen den Wert 2 oder darunter haben und 55,0% den Wert 3 oder darunter haben (also 33% den Wert 3 haben), dann ist der Median 3, da der Median der kleinste Wert von dem größer ist als eine Hälfte. Aber der interpolierte Median liegt irgendwo zwischen 2,50 und 3,50. Zuerst addieren wir die Hälfte der Intervallbreite zum Median, um die obere Grenze des Medianintervalls zu erhalten. Dann ziehen wir den Anteil der Intervallbreite ab, der dem Anteil der 33 % entspricht, der über der 50 %-Marke liegt. Mit anderen Worten, wir teilen die Intervallbreite anteilig auf die Anzahl der Beobachtungen auf. In diesem Fall werden die 33 % in 28 % unterhalb des Medians und 5 % darüber aufgeteilt, sodass wir 5/33 der Intervallbreite von der oberen Grenze von 3,50 abziehen, um einen interpolierten Median von 3,35 zu erhalten. Formaler ausgedrückt, wenn die Werte bekannt sind, kann der interpolierte Median berechnet werden aus

Wenn alternativ in einer beobachteten Stichprobe Werte über der Mediankategorie liegen, Werte darin und Werte darunter, dann ist der interpolierte Median gegeben durch

Pseudomedian

Für univariate Verteilungen, die um einen Median symmetrisch sind , ist der Hodges-Lehmann-Schätzer ein robuster und hocheffizienter Schätzer des Populationsmedians; für nichtsymmetrische Verteilungen ist der Hodges-Lehmann-Schätzer ein robuster und hocheffizienter Schätzer des Populations -Pseudomedians , der der Median einer symmetrisierten Verteilung ist und nahe am Populationsmedian liegt. Der Hodges-Lehmann-Schätzer wurde auf multivariate Verteilungen verallgemeinert.

Varianten der Regression

Der Theil-Sen-Schätzer ist eine Methode zur robusten linearen Regression, die auf der Ermittlung von Steigungsmedianen basiert .

Medianfilter

Im Zusammenhang mit der Bildverarbeitung von monochromen Rasterbildern gibt es eine Art von Rauschen, das als Salz- und Pfefferrauschen bekannt ist , wenn jedes Pixel unabhängig schwarz (mit geringer Wahrscheinlichkeit) oder weiß (mit geringer Wahrscheinlichkeit) wird und ansonsten unverändert bleibt (mit einer Wahrscheinlichkeit nahe 1). Ein aus Medianwerten von Nachbarschaften aufgebautes Bild (wie 3×3-Quadrat) kann in diesem Fall das Rauschen effektiv reduzieren .

Clusteranalyse

In der Clusteranalyse bietet der k-Median-Clustering- Algorithmus eine Möglichkeit zur Definition von Clustern, bei der das Kriterium der Maximierung des Abstands zwischen Cluster-Mittelwerten, das beim k-Means-Clustering verwendet wird , durch die Maximierung des Abstands zwischen Cluster-Medianen ersetzt wird.

Median-Median-Linie

Dies ist eine Methode der robusten Regression. Die Idee geht auf Wald im Jahr 1940 zurück, der vorschlug, einen Satz bivariater Daten abhängig vom Wert des unabhängigen Parameters in zwei Hälften zu teilen : eine linke Hälfte mit Werten unter dem Median und eine rechte Hälfte mit Werten über dem Median. Er schlug vor, die Mittelwerte der abhängigen und unabhängigen Variablen der linken und rechten Hälfte zu nehmen und die Steigung der Verbindungslinie dieser beiden Punkte zu schätzen. Die Linie könnte dann so angepasst werden, dass sie zu den meisten Punkten im Datensatz passt.

Nair und Shrivastava im Jahr 1942 schlugen eine ähnliche Idee vor, befürworteten jedoch stattdessen die Aufteilung der Stichprobe in drei gleiche Teile, bevor die Mittelwerte der Teilstichproben berechnet werden. Brown und Mood schlugen 1951 die Idee vor, die Mediane von zwei Teilstichproben anstelle der Mittelwerte zu verwenden. Tukey kombinierte diese Ideen und empfahl, die Stichprobe in drei gleich große Unterstichproben aufzuteilen und die Linie basierend auf den Medianen der Unterstichproben zu schätzen.

Median-unverzerrte Schätzer

Jeder Mittelwert- unverzerrte Schätzer minimiert das Risiko ( erwarteter Verlust ) in Bezug auf die Fehlerquadrat- Verlustfunktion , wie von Gauß beobachtet . Ein Median- unverzerrter Schätzer minimiert das Risiko in Bezug auf die absolute Abweichungsverlustfunktion , wie von Laplace beobachtet . Andere Verlustfunktionen werden in der statistischen Theorie verwendet , insbesondere in der robusten Statistik .

Die Theorie der Median-unverzerrten Schätzer wurde 1947 von George W. Brown wiederbelebt :

Eine Schätzung eines eindimensionalen Parameters wird als median-verzerrt bezeichnet, wenn für festes θ der Median der Verteilung der Schätzung den Wert θ hat; dh die Schätzung unterschätzt genauso oft wie sie überschätzt. Diese Anforderung scheint für die meisten Zwecke genauso viel zu erfüllen wie die mittelwertfreie Anforderung und hat die zusätzliche Eigenschaft, dass sie bei einer Eins-zu-Eins-Transformation invariant ist.

—  Seite 584

Über weitere Eigenschaften von Median-unverzerrten Schätzern wurde berichtet. Median-unverzerrte Schätzer sind bei Eins-zu-Eins-Transformationen invariant .

Es gibt Methoden zum Konstruieren von Median-unverzerrten Schätzern, die optimal sind (in gewissem Sinne analog zur Eigenschaft der minimalen Varianz für mittelwert-unverzerrte Schätzer). Solche Konstruktionen existieren für Wahrscheinlichkeitsverteilungen mit monotonen Likelihood-Funktionen . Ein solches Verfahren ist ein Analogon des Rao-Blackwell-Verfahrens für mittelwertverzerrte Schätzer: Das Verfahren gilt für eine kleinere Klasse von Wahrscheinlichkeitsverteilungen als das Rao-Blackwell-Verfahren, aber für eine größere Klasse von Verlustfunktionen .

Geschichte

Wissenschaftliche Forscher im antiken Nahen Osten scheinen keine zusammenfassenden Statistiken verwendet zu haben, sondern Werte auszuwählen, die maximale Übereinstimmung mit einer breiteren Theorie bieten, die eine Vielzahl von Phänomenen integriert. Innerhalb der mediterranen (und später europäischen) Gelehrtengemeinschaft sind Statistiken wie der Mittelwert grundsätzlich eine Entwicklung des Mittelalters und der Frühen Neuzeit. (Die Geschichte des Medians außerhalb Europas und seiner Vorgänger bleibt relativ unerforscht.)

Die Idee des Medians taucht im 13. Jahrhundert im Talmud auf , um unterschiedliche Einschätzungen gerecht zu analysieren . Das Konzept verbreitete sich jedoch nicht auf die breitere wissenschaftliche Gemeinschaft.

Stattdessen ist der nächste Vorfahre des modernen Medians der von Al-Biruni erfundene Mitteltöner . Die Übertragung von Al-Birunis Werk an spätere Gelehrte ist unklar. Al-Biruni wandte seine Technik auf die Untersuchung von Metallen an, aber nachdem er seine Arbeit veröffentlicht hatte, nahmen die meisten Prüfer immer noch den ungünstigsten Wert aus ihren Ergebnissen an, damit sie nicht zu betrügen scheinen . Die zunehmende Navigation auf See während des Zeitalters der Entdeckung bedeutete jedoch, dass Schiffsnavigatoren zunehmend versuchen mussten, bei ungünstigem Wetter gegen feindliche Küsten den Breitengrad zu bestimmen, was zu einem erneuten Interesse an zusammenfassenden Statistiken führte. Ob wiederentdeckt oder unabhängig erfunden, die Mittelklasse wird nautischen Navigatoren in Harriots "Instructions for Raleigh's Voyage to Guyana, 1595" empfohlen.

Die Idee des Medians ist möglicherweise erstmals in Edward Wrights Buch Certaine Errors in Navigation aus dem Jahr 1599 in einem Abschnitt über die Kompassnavigation aufgetaucht. Wright zögerte, gemessene Werte zu verwerfen und war möglicherweise der Meinung, dass der Median – der einen größeren Anteil des Datensatzes umfasst als der mittlere Bereich – mit größerer Wahrscheinlichkeit richtig war. Wright gab jedoch keine Beispiele für die Verwendung seiner Technik, was es schwierig machte, zu überprüfen, ob er den modernen Begriff des Medians beschrieb. Der Median (im Kontext der Wahrscheinlichkeit) tauchte sicherlich in der Korrespondenz von Christiaan Huygens auf , aber als Beispiel für eine Statistik, die für die versicherungsmathematische Praxis ungeeignet war .

Die früheste Empfehlung der Mediandaten bis 1757, als Roger Joseph Boscovich ein Regressionsverfahren auf der Basis der entwickelten L 1 Norm und damit implizit auf dem Median. 1774 machte Laplace diesen Wunsch deutlich: Er schlug vor, den Median als Standardschätzer für den Wert einer posterioren PDF zu verwenden . Das spezifische Kriterium bestand darin, die erwartete Fehlergröße zu minimieren; Wo ist der Schätzwert und der wahre Wert. Zu diesem Zweck bestimmte Laplace Anfang des 19. Jahrhunderts die Verteilungen sowohl des Stichprobenmittels als auch des Stichprobenmedians. Ein Jahrzehnt später entwickelten Gauss und Legendre jedoch die Methode der kleinsten Quadrate , die minimiert , um den Mittelwert zu erhalten. Im Zusammenhang mit der Regression bietet die Innovation von Gauss und Legendre eine wesentlich einfachere Berechnung. Folglich wurde der Vorschlag von Laplaces bis zum Aufkommen von Computergeräten 150 Jahre später allgemein abgelehnt (und ist immer noch ein relativ ungewöhnlicher Algorithmus).

Antoine Augustin Cournot verwendete 1843 als erster den Begriff Median ( valeur médiane ) für den Wert, der eine Wahrscheinlichkeitsverteilung in zwei gleiche Hälften teilt. Gustav Theodor Fechner verwendet den Median ( Centralwerth ) bei soziologischen und psychologischen Phänomenen. Es wurde früher nur in der Astronomie und verwandten Gebieten verwendet. Gustav Fechner popularisierte den Median in der formalen Analyse von Daten, obwohl er zuvor von Laplace verwendet wurde, und der Median erschien in einem Lehrbuch von FY Edgeworth . Francis Galton verwendete 1881 den englischen Begriff Median , nachdem er zuvor 1869 die Begriffe Mittelwert und 1880 den Mittelwert verwendet hatte.

Statistiker förderten im 19. Jahrhundert intensiv die Verwendung von Medianen wegen ihrer intuitiven Klarheit und einfachen manuellen Berechnung. Der Begriff des Medians eignet sich jedoch nicht so gut für die Theorie der höheren Momente wie das arithmetische Mittel und ist viel schwieriger mit dem Computer zu berechnen. Infolgedessen wurde der Median als Begriff des generischen Durchschnittes im 20.

Siehe auch

Anmerkungen

Verweise

Externe Links

Dieser Artikel enthält Material von Median einer Distribution auf PlanetMath , die unter der Creative Commons-Lizenz Namensnennung/Weitergabe unter gleichen Bedingungen lizenziert ist .