Mahalanobis-Distanz - Mahalanobis distance

Der Mahalanobis-Abstand ist ein Maß für den Abstand zwischen einem Punkt P und einer Verteilung D , eingeführt von P. C. Mahalanobis im Jahr 1936. Es ist eine mehrdimensionale Verallgemeinerung der Idee, zu messen, wie viele Standardabweichungen P vom Mittelwert von D entfernt ist . Dieser Abstand ist null für P am Mittelwert von D und wächst, wenn P sich entlang jeder Hauptkomponentenachse vom Mittelwert entfernt . Wenn jede dieser Achsen neu skaliert wird, um eine Einheitsvarianz zu haben, dann entspricht die Mahalanobis-Distanz der Standard- Euklidischen Distanz im transformierten Raum. Die Mahalanobis-Distanz ist somit einheitslos , skaleninvariant und berücksichtigt die Korrelationen des Datensatzes .

Definition und Eigenschaften

Die Mahalanobis-Distanz einer Beobachtung von einer Menge von Beobachtungen mit Mittelwert und Kovarianzmatrix S ist definiert als

Die Mahalanobis-Distanz (oder "generalized squared interpoint distance" für ihren quadrierten Wert) kann auch als Unähnlichkeitsmaß zwischen zwei Zufallsvektoren und derselben Verteilung mit der Kovarianzmatrix definiert werden :

Wie die Kovarianzmatrix ist sie positiv semidefinit , und die Inverse einer positiven semidefiniten Matrix ist auch positiv semidefinit, wir haben also auch positiv semidefinit. Dies erklärt, warum die Quadratwurzel gezogen werden kann, da alle Werte positiv sind.

Wenn die Kovarianzmatrix die Identitätsmatrix ist, reduziert sich die Mahalanobis-Distanz auf die Euklidische Distanz . Wenn die Kovarianzmatrix diagonal ist , wird das resultierende Distanzmaß als standardisierte euklidische Distanz bezeichnet :

wobei s i die Standardabweichung von x i und y i über den Stichprobensatz ist.

Die Mahalanobis-Distanz wird bei vollwertigen linearen Transformationen des von den Daten aufgespannten Raums beibehalten . Dies bedeutet, dass, wenn die Daten einen nichttrivialen Nullraum haben , die Mahalanobis-Distanz berechnet werden kann, nachdem die Daten (nicht degeneriert) auf einen beliebigen Raum mit der entsprechenden Dimension für die Daten projiziert wurden.

Wir können nützliche Zerlegungen des quadrierten Mahalanobis-Abstands finden, die helfen, einige Gründe für die Ausreißer multivariater Beobachtungen zu erklären und auch ein grafisches Werkzeug zum Identifizieren von Ausreißern bieten.

Intuitive Erklärung

Betrachten Sie das Problem der Schätzung der Wahrscheinlichkeit, dass ein Testpunkt im N- dimensionalen euklidischen Raum zu einer Menge gehört, wobei uns Stichprobenpunkte gegeben werden, die definitiv zu dieser Menge gehören. Unser erster Schritt wäre, den Schwerpunkt oder Massenmittelpunkt der Abtastpunkte zu finden. Intuitiv gilt: Je näher der fragliche Punkt an diesem Massenschwerpunkt liegt, desto wahrscheinlicher gehört er zur Menge.

Allerdings müssen wir auch wissen, ob die Menge über einen großen Bereich oder einen kleinen Bereich verteilt ist, damit wir entscheiden können, ob ein bestimmter Abstand vom Zentrum bemerkenswert ist oder nicht. Der vereinfachte Ansatz besteht darin, die Standardabweichung der Abstände der Abtastpunkte vom Massenmittelpunkt zu schätzen . Wenn der Abstand zwischen Testpunkt und Massenmittelpunkt kleiner als eine Standardabweichung ist, können wir daraus schließen, dass der Testpunkt mit hoher Wahrscheinlichkeit zur Menge gehört. Je weiter er entfernt ist, desto wahrscheinlicher ist es, dass der Testpunkt nicht zur Menge gehört.

Dieser intuitive Ansatz kann quantitativ gemacht werden, indem der normalisierte Abstand zwischen dem Testpunkt und dem Satz definiert wird , der lautet: . Indem wir dies in die Normalverteilung einsetzen, können wir die Wahrscheinlichkeit ableiten, dass der Testpunkt zur Menge gehört.

Der Nachteil des obigen Ansatzes war, dass wir davon ausgingen, dass die Abtastpunkte kugelförmig um den Massenmittelpunkt verteilt sind. Wäre die Verteilung dezidiert nicht kugelförmig, zB ellipsoid, dann würde man erwarten, dass die Wahrscheinlichkeit des zur Menge gehörenden Testpunktes nicht nur vom Abstand vom Massenmittelpunkt, sondern auch von der Richtung abhängt. In den Richtungen, in denen das Ellipsoid eine kurze Achse hat, muss der Testpunkt näher sein, während der Testpunkt in Richtungen mit einer langen Achse weiter vom Zentrum entfernt sein kann.

Auf mathematischer Basis kann das Ellipsoid, das die Wahrscheinlichkeitsverteilung der Menge am besten repräsentiert, durch Erstellen der Kovarianzmatrix der Stichproben geschätzt werden. Der Mahalanobis-Abstand ist der Abstand des Testpunkts vom Massenmittelpunkt geteilt durch die Breite des Ellipsoids in Richtung des Testpunkts.

Normalverteilungen

Bei einer Normalverteilung in beliebig vielen Dimensionen wird die Wahrscheinlichkeitsdichte einer Beobachtung eindeutig durch die Mahalanobis-Distanz bestimmt :

Insbesondere folgt die Chi-Quadrat-Verteilung mit Freiheitsgraden, wobei die Anzahl der Dimensionen der Normalverteilung ist. Wenn die Anzahl der Dimensionen beispielsweise 2 beträgt, beträgt die Wahrscheinlichkeit, dass eine bestimmte Berechnung kleiner als ein Schwellenwert ist, . Um einen Schwellenwert zum Erreichen einer bestimmten Wahrscheinlichkeit zu bestimmen , verwenden Sie , für 2 Dimensionen. Bei einer anderen Anzahl von Dimensionen als 2 sollte die kumulative Chi-Quadrat-Verteilung herangezogen werden.

In einer Normalverteilung ist die Region, in der die Mahalanobis-Distanz kleiner als eins ist (dh die Region innerhalb des Ellipsoids bei der Distanz eins), genau die Region, in der die Wahrscheinlichkeitsverteilung konkav ist .

Die Mahalanobis-Distanz ist bei einer Normalverteilung proportional zur Quadratwurzel der negativen Log-Likelihood (nach Hinzufügen einer Konstanten, sodass das Minimum bei Null liegt).

Beziehung zu normalen Zufallsvariablen

Im Allgemeinen kann bei einer gegebenen normalen ( Gaußschen ) Zufallsvariablen mit Varianz und Mittelwert jede andere normale Zufallsvariable (mit Mittelwert und Varianz ) durch die Gleichung definiert werden. kann man normalerweise auflösen . Wenn wir beide Seiten quadrieren und die Quadratwurzel ziehen, erhalten wir eine Gleichung für eine Metrik, die der Mahalanobis-Distanz sehr ähnlich sieht:

Die resultierende Größe ist immer nicht negativ und variiert mit der Entfernung der Daten vom Mittelwert, Attribute, die praktisch sind, wenn versucht wird, ein Modell für die Daten zu definieren.

Verhältnis zur Hebelwirkung

Die Mahalanobis-Distanz steht in engem Zusammenhang mit der Leverage-Statistik , hat aber eine andere Skala:

Anwendungen

Die Definition von Mahalanobis wurde durch das Problem ausgelöst, die Ähnlichkeiten von Schädeln anhand von Messungen im Jahr 1927 zu identifizieren.

Mahalanobis-Distanz wird häufig in Clusteranalyse- und Klassifikationstechniken verwendet. Sie steht in engem Zusammenhang mit der T-Quadrat-Verteilung von Hotelling, die für multivariate statistische Tests verwendet wird, und der linearen Diskriminanzanalyse von Fisher , die für die überwachte Klassifizierung verwendet wird .

Um die Mahalanobis-Distanz zu verwenden, um einen Testpunkt als zu einer von N Klassen gehörend zu klassifizieren , schätzt man zuerst die Kovarianzmatrix jeder Klasse, normalerweise basierend auf Stichproben, von denen bekannt ist, dass sie zu jeder Klasse gehören. Dann berechnet man bei einer gegebenen Testprobe die Mahalanobis-Distanz zu jeder Klasse und klassifiziert den Testpunkt als zu der Klasse gehörend, für die die Mahalanobis-Distanz minimal ist.

Mahalanobis Distanz und Hebel werden häufig verwendet, um Ausreißer zu erkennen , insbesondere bei der Entwicklung von linearen Regressionsmodellen . Ein Punkt, der einen größeren Mahalanobis-Abstand vom Rest der Stichprobenpopulation von Punkten hat, hat eine höhere Hebelwirkung, da er einen größeren Einfluss auf die Steigung oder die Koeffizienten der Regressionsgleichung hat. Die Mahalanobis-Distanz wird auch verwendet, um multivariate Ausreißer zu bestimmen. Regressionstechniken können verwendet werden, um zu bestimmen, ob ein bestimmter Fall innerhalb einer Stichprobenpopulation durch die Kombination von zwei oder mehr variablen Scores ein Ausreißer ist. Sogar bei Normalverteilungen kann ein Punkt ein multivariater Ausreißer sein, selbst wenn er für keine Variable ein univariater Ausreißer ist (betrachten Sie beispielsweise eine entlang der Linie konzentrierte Wahrscheinlichkeitsdichte ), was die Mahalanobis-Distanz zu einem empfindlicheren Maß macht, als Dimensionen einzeln zu überprüfen.

Softwareimplementierungen

Viele Programme und Statistikpakete wie R , Python usw. enthalten Implementierungen von Mahalanobis Distance.

Sprache/Programm Funktion Art.-Nr.
R mahalanobis(x, center, cov, inverted = FALSE, ...) [1]
SciPy ( Python ) mahalanobis(u, v, VI) [2]
Julia mahalanobis(x, y, Q) [3]

Siehe auch

  • Bregman-Divergenz (die Mahalanobis-Distanz ist ein Beispiel für eine Bregman-Divergenz)
  • Bhattacharyya distanzbezogen, zum Messen der Ähnlichkeit zwischen Datensätzen (und nicht zwischen einem Punkt und einem Datensatz)
  • Hamming-Distanz identifiziert bitweise die Differenz zweier Strings
  • Hellinger-Distanz , auch ein Maß für die Distanz zwischen Datensätzen
  • Ähnlichkeitslernen , für andere Ansätze, um eine Distanzmetrik aus Beispielen zu lernen.

Verweise

Externe Links