Perzentil - Percentile

In der Statistik ist ein k- tes Perzentil ( Perzentilwert oder Perzentil ), bezeichnet mit , ein Wert, unter den ein bestimmter Prozentsatz k von Werten in seiner Häufigkeitsverteilung fällt (ausschließliche Definition) oder ein Wert, bei oder unter den ein bestimmter Prozentsatz fällt (einschließlich Definition). Zum Beispiel ist das 50. Perzentil (der Median ) der Wert, unter dem (ausschließlich) oder bei oder unter dem (einschließlich) 50 % der Werte in der Verteilung gefunden werden können. Perzentile werden in derselben Maßeinheit wie die Eingabewerte ausgedrückt ; Wenn sich die Werte beispielsweise auf das menschliche Gewicht beziehen , werden die entsprechenden Perzentile in Kilogramm oder Pfund ausgedrückt.

Der Perzentilwert und der Perzentilrang sind verwandte Begriffe. Der Perzentilrang einer Punktzahl ist der Prozentsatz der Punktzahlen in ihrer Verteilung, die darunter liegen, eine exklusive Definition, die mit einer einzigen, einfachen Formel ausgedrückt werden kann. Perzentilwerte und Perzentilränge werden häufig bei der Berichterstattung über Testergebnisse aus normbezogenen Tests verwendet , sind aber, wie bereits erwähnt, nicht identisch. Für den Perzentilrang wird eine Punktzahl angegeben und ein Prozentsatz berechnet. Perzentilränge sind exklusiv. Wenn der Perzentilrang für eine bestimmte Punktzahl 90 % beträgt, waren 90 % der Punktzahlen niedriger. Im Gegensatz dazu wird für Perzentile ein Prozentsatz angegeben und ein entsprechender Wert bestimmt, der entweder ausschließend oder einschließend sein kann. Die Punktzahl für einen bestimmten Prozentsatz (z. B. 90.) gibt eine Punktzahl an, unter die (ausschließliche Definition) oder auf oder unter die (inklusive Definition) andere Werte in der Verteilung fallen.

Das 25. Perzentil wird auch als erstes Quartil ( Q 1 ), das 50. Perzentil als Median oder zweites Quartil ( Q 2 ) und das 75. Perzentil als drittes Quartil ( Q 3 ) bezeichnet.

Anwendungen

Wenn ISPs "burstable" Internetbandbreite in Rechnung stellen , schneidet das 95. So werden seltene Spitzen ignoriert und der Kunde gerechter belastet. Der Grund, warum diese Statistik bei der Messung des Datendurchsatzes so nützlich ist, liegt darin, dass sie ein sehr genaues Bild der Kosten der Bandbreite liefert. Das 95. Perzentil sagt aus, dass die Nutzung in 95 % der Fälle unter diesem Wert liegt. In den restlichen 5 % der Zeit liegt die Nutzung also über diesem Wert.

Ärzte verwenden häufig das Gewicht und die Größe von Säuglingen und Kindern, um ihr Wachstum im Vergleich zu den nationalen Durchschnittswerten und Perzentilen zu beurteilen, die in Wachstumsdiagrammen zu finden sind .

Die 85. Perzentile der Verkehrsgeschwindigkeit auf einer Straße wird oft als Richtlinie für die Festlegung von Geschwindigkeitsbegrenzungen und die Beurteilung verwendet, ob eine solche Begrenzung zu hoch oder zu niedrig ist.

Im Finanzbereich ist der Value-at-Risk ein Standardmaß, um (modellabhängig) die Größe zu beurteilen, unter die der Wert des Portfolios innerhalb eines bestimmten Zeitraums und bei gegebenem Konfidenzwert voraussichtlich nicht sinken wird.

Die Normalverteilung und Perzentile

Darstellung der Drei-Sigma-Regel . Die dunkelblaue Zone stellt Beobachtungen innerhalb einer Standardabweichung (σ) zu beiden Seiten des Mittelwerts (μ) dar, was etwa 68,3% der Bevölkerung ausmacht. Zwei Standardabweichungen vom Mittelwert (dunkel- und mittelblau) machen ca. 95,4% aus und drei Standardabweichungen (dunkel, mittel und hellblau) ca. 99,7%.

Die im Abschnitt "Definitionen" (unten) angegebenen Methoden sind Näherungswerte für die Verwendung in Statistiken mit kleinen Stichproben. Im Allgemeinen können Perzentile für sehr große Populationen, die einer Normalverteilung folgen , häufig durch Bezugnahme auf ein Normalkurvendiagramm dargestellt werden. Die Normalverteilung wird entlang einer Achse aufgetragen, die auf Standardabweichungen oder Sigma ( )-Einheiten skaliert ist . Mathematisch erstreckt sich die Normalverteilung links bis negativ unendlich und rechts positiv unendlich. Beachten Sie jedoch, dass nur ein sehr kleiner Teil der Individuen in einer Population außerhalb des Bereichs von −3 σ bis +3 σ liegt. Bei menschlicher Körpergröße sind beispielsweise nur sehr wenige Menschen über der Körpergröße von +3 σ .

Perzentile stellen die Fläche unter der normalen Kurve dar, die von links nach rechts ansteigt. Jede Standardabweichung repräsentiert ein festes Perzentil. Somit Rundung auf zwei Dezimalstellen, -3 σ ist die 0.13th Perzentil, -2 σ der 2.28th Perzentil, -1 σ der 15.87th Perzentil, 0 σ das 50. Perzentil (sowohl der Mittelwert und Median der Verteilung), + 1 σ das 84,13. Perzentil, +2 σ das 97,72. Perzentil und +3 σ das 99,87. Perzentil. Dies hängt mit der Regel 68–95–99,7 oder der Drei-Sigma-Regel zusammen. Beachten Sie, dass das 0. Perzentil theoretisch bei negativ unendlich und das 100. Perzentil bei positiv unendlich fällt, obwohl in vielen praktischen Anwendungen, wie z. B. Testergebnissen, natürliche Unter- und/oder Obergrenzen durchgesetzt werden.

Definitionen

Es gibt keine Standarddefinition des Perzentils, jedoch liefern alle Definitionen ähnliche Ergebnisse, wenn die Anzahl der Beobachtungen sehr groß ist und die Wahrscheinlichkeitsverteilung stetig ist. Im Grenzfall , da die Probengrße Unendlichen nähert, 100 die p - te Perzentil (0 < p <1) approximiert die Inverse der kumulativen Verteilungsfunktion (CDF) , die so ausgebildet ist , um ausgewertet p als p die CDF annähert. Dies kann als Folge des Glivenko-Cantelli-Theorems gesehen werden . Einige Methoden zur Berechnung der Perzentile sind unten angegeben.

Berechnungsmethoden

Interpolierte und nächstrangige, exklusive und einschließende Perzentile für die 10-Punkte-Verteilung.

Es gibt viele Formeln oder Algorithmen für einen Perzentilwert. Hyndman und Fan identifizierten neun und die meisten Statistik- und Tabellenkalkulationsprogramme verwenden eine der von ihnen beschriebenen Methoden. Algorithmen geben entweder den Wert eines Scores zurück, der in der Menge von Scores vorhanden ist (Methoden mit dem nächsten Rang) oder interpolieren zwischen vorhandenen Scores und sind entweder ausschließend oder einschließend.

Methoden mit dem nächsten Rang (exklusiv/inklusiv)
PC: Perzentil angegeben 0.10 0,25 0,50 0,75 0,90
N: Anzahl der Punkte 10 10 10 10 10
ODER: Ordinalrang = PC × N 1 2.5 5 7,5 9
Rang: >ODER / ≥ODER 2/1 3/3 6/5 8/8 10/9
Punktzahl beim Rang (exc/inc) 2/1 3/3 4/3 5/5 7/5

Die Abbildung zeigt eine 10-Score-Verteilung, veranschaulicht die Perzentil-Scores, die sich aus diesen verschiedenen Algorithmen ergeben, und dient als Einführung in die nachfolgend aufgeführten Beispiele. Die einfachsten sind Methoden mit dem nächsten Rang, die eine Punktzahl aus der Verteilung zurückgeben, obwohl die Ergebnisse im Vergleich zu Interpolationsmethoden etwas grob sein können. Die Tabelle Nearest-Rank Methods zeigt die Berechnungsschritte für exklusive und inklusive Methoden.

Interpolierte Methoden (exklusiv/inklusiv)
PC: Perzentil angegeben 0.10 0,25 0,50 0,75 0,90
N: Anzahl der Partituren 10 10 10 10 10
ODER: PC×(N+1) / PC×(N−1)+1 1.1/1.9 2,75/3,25 5,5/5,5 8,25/7,75 9,9/9,1
LoRank: ODER abgeschnitten 1/1 2/3 5/5 8/7 9/9
HIRank: ODER aufgerundet 2/2 3/4 6/6 9/8 10/10
LoScore: Punktzahl bei LoRank 1/1 2/3 3/3 5/4 5/5
HiScore: Punktzahl bei HiRank 2/2 3/3 4/4 5/5 7/7
Unterschied: HiScore − LoScore 1/1 1/0 1/1 0/1 2/2
Mod: Bruchteil von OR 0,1/0,9 0,75/0,25 0,5/0,5 0,25/0,75 0,9/0,1
Interpolierter Score (exc/inc)
= LoScore + Mod × Differenz
1.1/1.9 2,75/3 3.5/3.5 5/4,75 6.8/5.2

Interpolationsmethoden können, wie der Name schon sagt, einen Score zurückgeben, der zwischen den Scores in der Verteilung liegt. Algorithmen, die von Statistikprogrammen verwendet werden, verwenden normalerweise Interpolationsmethoden, zum Beispiel die Funktionen Perzentile.exl und Perzentile.inc in Microsoft Excel. Die Tabelle Interpolated Methods zeigt die Berechnungsschritte.

Die Nearest-Rank-Methode

Die Perzentilwerte für die geordnete Liste {15, 20, 35, 40, 50}

Eine Definition des Perzentils, die oft in Texten angegeben wird, ist, dass das P- te Perzentil einer Liste von N geordneten Werten (sortiert vom kleinsten zum größten) der kleinste Wert in der Liste ist, so dass nicht mehr als P Prozent der Daten streng kleiner als der Wert und mindestens P Prozent der Daten kleiner oder gleich diesem Wert sind. Dies erhält man, indem man zuerst den Ordinalrang berechnet und dann den Wert aus der geordneten Liste nimmt, der diesem Rang entspricht. Der Ordnungsrang n wird unter Verwendung dieser Formel berechnet

Beachten Sie das Folgende:

  • Die Verwendung der Methode des nächsten Rangs für Listen mit weniger als 100 unterschiedlichen Werten kann dazu führen, dass derselbe Wert für mehr als ein Perzentil verwendet wird.
  • Ein mit der Nearest-Rank-Methode berechnetes Perzentil ist immer ein Mitglied der ursprünglichen geordneten Liste.
  • Das 100. Perzentil ist als größter Wert in der geordneten Liste definiert.

Ausgeführte Beispiele für die Methode mit dem nächsten Rang

Beispiel 1

Betrachten Sie die geordnete Liste {15, 20, 35, 40, 50}, die 5 Datenwerte enthält. Was sind das 5., 30., 40., 50. und 100. Perzentil dieser Liste mit der Methode des nächsten Rangs?

Perzentil
P
Nummer in Liste
N
Ordinalrang
n
Nummer aus der geordneten Liste
mit diesem Rang
Perzentil -
Wert
Anmerkungen
5. 5 die erste Zahl in der geordneten Liste, die 15 . ist fünfzehn 15 ist das kleinste Element der Liste; 0 % der Daten sind streng genommen kleiner als 15 und 20 % der Daten sind kleiner oder gleich 15.
30 5 die 2. Nummer in der geordneten Liste, die 20 ist 20 20 ist ein Element der geordneten Liste.
40 5 die 2. Nummer in der geordneten Liste, die 20 ist 20 In diesem Beispiel entspricht es dem 30. Perzentil.
50 5 die dritte Zahl in der geordneten Liste, die 35 ist 35 35 ist ein Element der geordneten Liste.
100. 5 die letzte Zahl in der geordneten Liste, die 50 ist 50 Das 100. Perzentil ist der größte Wert in der Liste, der 50 ist.

Das 5., 30., 40., 50. und 100. Perzentil der geordneten Liste {15, 20, 35, 40, 50} mit der Methode des nächsten Rangs sind also {15, 20, 20, 35, 50}.

Beispiel 2

Betrachten Sie eine geordnete Population von 10 Datenwerten {3, 6, 7, 8, 8, 10, 13, 15, 16, 20}. Wie lauten die 25., 50., 75. und 100. Perzentile dieser Liste mit der Methode des nächsten Rangs?

Perzentil
P
Nummer in Liste
N
Ordinalrang
n
Nummer aus der geordneten Liste
mit diesem Rang
Perzentil -
Wert
Anmerkungen
25 10 die 3. Zahl in der geordneten Liste, also 7 7 7 ist ein Element der Liste.
50 10 die 5. Zahl in der geordneten Liste, die 8 . ist 8 8 ist ein Element der Liste.
75 10 die 8. Zahl in der geordneten Liste, also 15 fünfzehn 15 ist ein Element der Liste.
100. 10 Zuletzt 20, das ist die letzte Zahl in der geordneten Liste 20 Das 100. Perzentil ist als größter Wert in der Liste definiert, der 20 ist.

Das 25., 50., 75. und 100. Perzentil der geordneten Liste {3, 6, 7, 8, 8, 10, 13, 15, 16, 20} mit der Methode des nächsten Rangs sind also {7, 8, 15, 20 }.

Beispiel 3

Betrachten Sie eine geordnete Population von 11 Datenwerten {3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20}. Wie lauten die 25., 50., 75. und 100. Perzentile dieser Liste mit der Methode des nächsten Rangs?

Perzentil
P
Nummer in Liste
N
Ordinalrang
n
Nummer aus der geordneten Liste
mit diesem Rang
Perzentil -
Wert
Anmerkungen
25 11 die 3. Zahl in der geordneten Liste, also 7 7 7 ist ein Element der Liste.
50 11 die 6. Zahl in der geordneten Liste, also 9 9 9 ist ein Element der Liste.
75 11 die 9. Nummer in der geordneten Liste, also 15 fünfzehn 15 ist ein Element der Liste.
100. 11 Zuletzt 20, das ist die letzte Zahl in der geordneten Liste 20 Das 100. Perzentil ist als größter Wert in der Liste definiert, der 20 ist.

Die 25., 50., 75. und 100. Perzentile der geordneten Liste {3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20} sind also {7, 9, 15 , 20}.

Die Methode der linearen Interpolation zwischen den engsten Rängen

Eine Alternative zum Runden, das in vielen Anwendungen verwendet wird, besteht darin, eine lineare Interpolation zwischen benachbarten Rängen zu verwenden.

Gemeinsamkeiten zwischen den Varianten dieser Methode

Alle folgenden Varianten haben Folgendes gemeinsam. Angesichts der Bestellstatistik

wir suchen eine lineare Interpolationsfunktion, die durch die Punkte geht . Dies geschieht einfach durch

where verwendet die Floor-Funktion , um den ganzzahligen Teil von positivem x darzustellen , während die mod-Funktion verwendet , um seinen Bruchteil darzustellen (der Rest nach Division durch 1). (Beachten Sie, dass, obwohl am Endpunkt , nicht definiert ist, ist es nicht zu sein braucht , weil es multipliziert wird .) Wie wir sehen können, x ist die kontinuierliche Version des Index i , lineare Interpolation v zwischen benachbarten Knoten.

Es gibt zwei Arten, in denen sich die Variantenansätze unterscheiden. Die erste besteht in der linearen Beziehung zwischen dem Rang x , dem Prozentrang und einer Konstanten, die eine Funktion des Stichprobenumfangs N ist :

Es besteht die zusätzliche Anforderung , dass der Mittelpunkt des Bereichs , der dem Median entspricht , bei :

und unsere überarbeitete Funktion hat jetzt nur noch einen Freiheitsgrad und sieht so aus:

Die zweite Art, in der sich die Varianten unterscheiden, besteht in der Definition der Funktion in der Nähe der Ränder des Bereichs von p : sollte ein Ergebnis im Bereich erzeugen oder dazu gezwungen werden , was das Fehlen einer Eins-zu- eine Korrespondenz in der weiteren Region. Ein Autor hat eine Wahl vorgeschlagen, wobei ξ die Form der verallgemeinerten Extremwertverteilung ist, die die Extremwertgrenze der Stichprobenverteilung ist.

Erste Variante, C = 1/2

Das Ergebnis der Verwendung jeder der drei Varianten in der geordneten Liste {15, 20, 35, 40, 50}

(Quellen: Matlab "prctile"-Funktion,)

wo

Lassen Sie außerdem

Die inverse Beziehung ist auf einen engeren Bereich beschränkt:

Ausgeführtes Beispiel der ersten Variante

Betrachten Sie die geordnete Liste {15, 20, 35, 40, 50}, die fünf Datenwerte enthält. Was sind das 5., 30., 40. und 95. Perzentil dieser Liste mit der Methode der linearen Interpolation zwischen den engsten Rängen? Zuerst berechnen wir den prozentualen Rang für jeden Listenwert.

Listenwert
Position dieses Wertes
in der geordneten Liste
i
Anzahl Werte
N
Berechnung des
Prozentrangs
Prozent Rang,
fünfzehn 1 5 10
20 2 5 30
35 3 5 50
40 4 5 70
50 5 5 90

Dann nehmen wir diese Prozentränge und berechnen die Perzentilwerte wie folgt:

Prozentrang
P
Anzahl Werte
N
Ist ? Ist ? Gibt es einen
Prozentrang
gleich P ?
Was verwenden wir für den Perzentilwert? Perzentilwert

Anmerkungen
5 5 Jawohl Nein Nein Wir sehen das , was kleiner ist als der erste Prozentrang , also verwenden Sie den ersten Listenwert , der 15 . ist fünfzehn 15 ist ein Mitglied der geordneten Liste
30 5 Nein Nein Jawohl Wir sehen, dass dies mit dem zweiten Prozentrang identisch ist , also verwenden Sie den zweiten Listenwert , der 20 . ist 20 20 ist ein Mitglied der geordneten Liste
40 5 Nein Nein Nein Wir sehen, dass das zwischen Prozentrang und liegt , also nehmen wir
.

Mit diesen Werten können wir dann v wie folgt berechnen:

27,5 27.5 ist kein Mitglied der bestellten Liste
95 5 Nein Jawohl Nein Wir sehen, dass , das größer als der letzte Prozentrang ist , also den letzten Listenwert verwenden, der 50 . ist 50 50 ist ein Mitglied der geordneten Liste

Das 5., 30., 40. und 95. Perzentil der geordneten Liste {15, 20, 35, 40, 50} mit der Methode der linearen Interpolation zwischen den engsten Rängen sind also {15, 20, 27,5, 50}

Zweite Variante, C = 1

(Quelle: Einige Softwarepakete, darunter NumPy und Microsoft Excel (bis einschließlich Version 2013 mittels der Funktion PERCENTILE.INC). Von NIST als Alternative notiert )

Beachten Sie, dass die Beziehung eins zu eins für ist , die einzige der drei Varianten mit dieser Eigenschaft; daher das Suffix "INC" für inklusive , auf der Excel-Funktion.

Arbeitsbeispiele der zweiten Variante

Beispiel 1

Betrachten Sie die geordnete Liste {15, 20, 35, 40, 50}, die fünf Datenwerte enthält. Was ist das 40. Perzentil dieser Liste mit dieser Variantenmethode?

Zuerst berechnen wir den Rang des 40. Perzentils:

Also, x = 2,6, was uns und gibt . Der Wert des 40. Perzentils ist also

Beispiel 2

Betrachten Sie die geordnete Liste {1,2,3,4}, die vier Datenwerte enthält. Was ist das 75. Perzentil dieser Liste mit der Microsoft Excel-Methode?

Zuerst berechnen wir den Rang des 75. Perzentils wie folgt:

Also x = 3,25, was uns einen ganzzahligen Teil von 3 und einen Bruchteil von 0,25 ergibt. Der Wert des 75. Perzentils ist also

Dritte Variante, C = 0

(Die von NIST empfohlene primäre Variante . Seit 2010 von Microsoft Excel mit der Funktion PERCENTIL.EXC übernommen. Wie das Suffix "EXC" anzeigt, schließt die Excel-Version jedoch beide Endpunkte des Bereichs von p aus , dh , während die " INC"-Version, die zweite Variante, nicht; tatsächlich ist jede Zahl kleiner als ebenfalls ausgeschlossen und würde einen Fehler verursachen.)

Die Umkehrung ist auf einen engeren Bereich beschränkt:

Ausgeführtes Beispiel der dritten Variante

Betrachten Sie die geordnete Liste {15, 20, 35, 40, 50}, die fünf Datenwerte enthält. Was ist das 40. Perzentil dieser Liste mit der NIST-Methode?

Zuerst berechnen wir den Rang des 40. Perzentils wie folgt:

Also x = 2,4, was uns und gibt . Der Wert des 40. Perzentils berechnet sich also wie folgt:

Der Wert des 40. Perzentils der geordneten Liste {15, 20, 35, 40, 50} bei dieser Variantenmethode beträgt also 26.

Die gewichtete Perzentilmethode

Neben der Perzentilfunktion gibt es auch ein gewichtetes Perzentil , bei dem statt der Gesamtzahl der prozentuale Anteil am Gesamtgewicht gezählt wird. Es gibt keine Standardfunktion für ein gewichtetes Perzentil. Ein Verfahren erweitert den obigen Ansatz auf natürliche Weise.

Angenommen, wir haben positive Gewichte , die unseren N sortierten Stichprobenwerten zugeordnet sind. Lassen

die Summe der Gewichte. Dann werden die obigen Formeln verallgemeinert, indem man

wann ,

oder

für allgemeine ,

und

Das gewichtete Perzentil von 50 % wird als gewichteter Median bezeichnet .

Siehe auch

Verweise