Unsicherheitskoeffizient - Uncertainty coefficient

In Statistiken , die Unsicherheit Koeffizient , auch genannt Tüchtigkeit , Entropie Koeffizient oder Theil des U ist ein Maß für Nenn Verein . Sie wurde erstmals von Henri Theil eingeführt und basiert auf dem Konzept der Informationsentropie .

Definition

Angenommen, wir haben Stichproben von zwei diskreten Zufallsvariablen, X und Y . Durch die gemeinsame Verteilung der Konstruktion, P X, Y ( xy ) , aus dem wir die Berechnung können bedingte Verteilungen , P X | Y ( x | y ) =  P X, Y ( xy )/ P Y ( y ) und P Y |X ( y | x ) =  P X, Y ( xy ) / P X ( x ) und Wenn wir die verschiedenen Entropien berechnen, können wir den Grad der Assoziation zwischen den beiden Variablen bestimmen.

Die Entropie einer einzelnen Verteilung ist gegeben als:

während die bedingte Entropie gegeben ist als:

Der Unsicherheitskoeffizient oder die Leistungsfähigkeit ist definiert als:

und sagt uns: Welchen Bruchteil der Bits von X können wir bei gegebenem Y vorhersagen? In diesem Fall können wir uns X so vorstellen, dass er die gesamte Information enthält, und Y als erlaubt, einen Teil dieser Information vorherzusagen.

Der obige Ausdruck macht deutlich, dass der Unsicherheitskoeffizient eine normalisierte gegenseitige Information I(X;Y) ist . Insbesondere reicht der Unsicherheitskoeffizient in [0, 1] als I(X;Y) < H(X) und sowohl I(X,Y) als auch H(X) sind positiv oder null.

Man beachte , dass der Wert von U (aber nicht H !) Ist unabhängig von der Basis des Log da alle Logarithmen proportional sind.

Der Unsicherheitskoeffizient ist nützlich, um die Gültigkeit eines statistischen Klassifikationsalgorithmus zu messen und hat gegenüber einfacheren Genauigkeitsmessungen wie Präzision und Wiedererkennung den Vorteil, dass er nicht von den relativen Anteilen der verschiedenen Klassen, dh P ( x ), beeinflusst wird. Es hat auch die einzigartige Eigenschaft, dass es einen Algorithmus für die Vorhersage der falschen Klassen nicht bestraft, solange er dies konsequent tut (dh es ordnet die Klassen einfach neu an). Dies ist beim Auswerten von Clustering-Algorithmen nützlich, da Cluster-Labels normalerweise keine bestimmte Reihenfolge haben.

Variationen

Der Unsicherheitskoeffizient ist bezüglich der Rollen von X und Y nicht symmetrisch . Die Rollen können vertauscht und somit ein symmetrisches Maß als gewichteter Durchschnitt zwischen den beiden definiert werden:

Obwohl er normalerweise auf diskrete Variablen angewendet wird, kann der Unsicherheitskoeffizient durch Dichteschätzung auf kontinuierliche Variablen ausgedehnt werden .

Siehe auch

Verweise

  1. ^ a b c Claude E. Shannon; Warren Weaver (1963). Die mathematische Theorie der Kommunikation . University of Illinois Press.
  2. ^ a b William H. Drücken Sie; Brian P. Flannery; Saul A. Teukolsky; William T. Vetterling (1992). "14.7.4". Numerische Rezepte: die Kunst des wissenschaftlichen Rechnens (3. Aufl.). Cambridge University Press. P. 761.
  3. ^ a b Weiß, Jim; Steingold, Sam; Fournelle, Connie. "Leistungsmetriken für Gruppenerkennungsalgorithmen" (pdf) . Schnittstelle 2004. Cite Journal erfordert |journal=( Hilfe )
  4. ^ Peter, Mühlen (2011). "Effiziente statistische Klassifizierung von Satellitenmessungen" (PDF) . Internationale Zeitschrift für Fernerkundung . 32 (21): 6109–6132. arXiv : 1202.2194 . doi : 10.1080/01431161.2010.507795 . Archiviert vom Original (PDF) am 26.04.2012.

Externe Links

  • libagf Enthält Software zur Berechnung von Unsicherheitskoeffizienten.