Das Quellcodierungstheorem von Shannon - Shannon's source coding theorem

In der Informationstheorie , Codierung Shannon-Theorems Quelle (oder geräuschlosen Kodierungs Theorem ) legt die Grenzen der möglichen Datenkompression , und die Betriebs Bedeutung der Shannon Entropie .

Genannt nach Claude Shannon , dem Source - Theorem Codierung zeigt , dass (in der Grenze, wenn die Länge eines Stroms von unabhängigem und Zufallsvariable gleich verteilt (iid) Daten gegen Unendlich) es unmöglich ist , die Daten , so dass die Code - Rate zu komprimieren , (durchschnittliche Anzahl von Bits pro Symbol) kleiner als die Shannon-Entropie der Quelle ist, ohne dass praktisch sicher ist, dass Informationen verloren gehen. Es ist jedoch möglich, die Coderate mit vernachlässigbarer Verlustwahrscheinlichkeit beliebig nahe an die Shannon-Entropie zu bringen.

Das Quellencodierungstheorem für Symbolcodes legt eine Ober- und eine Untergrenze für die minimal mögliche erwartete Länge von Codewörtern in Abhängigkeit von der Entropie des Eingangswortes (das als Zufallsvariable betrachtet wird ) und der Größe des Zielalphabets fest.

Aussagen

Quellencodierung ist eine Abbildung von (eine Abfolge von) Symbolen von einer Informationsquelle zu einer Sequenz von Alphabet - Symbolen ( in der Regel Bits) , so dass die Quellensymbole exakt aus den binären Bits (lossless Quellencodierung) oder in einem gewissen Verzerrung zurückgewonnen werden ( verlustbehaftete Quellcodierung). Dies ist das Konzept der Datenkomprimierung .

Quellcodierungstheorem

In der Informationstheorie besagt das Source Coding Theorem (Shannon 1948) informell (MacKay 2003, S. 81, Cover 2006, Kapitel 5):

N i.id Zufallsvariablen mit jeweils der Entropie H ( X ) können mit vernachlässigbarem Informationsverlustrisiko in mehr als N H ( X ) Bits komprimiert werden , da N → ∞ ; aber umgekehrt, wenn sie in weniger als NH ( X ) Bits komprimiert werden , ist es praktisch sicher, dass Informationen verloren gehen.

Quellcodierungstheorem für Symbolcodes

Seien Σ 1 , Σ 2 zwei endliche Alphabete und sei Σ*
1
und Σ*
2
die Menge aller endlichen Wörter aus diesen Alphabeten (jeweils) bezeichnen.

Angenommen, X sei eine Zufallsvariable mit Werten in Σ 1 und sei f ein eindeutig dekodierbarer Code aus Σ*
1
zu Σ*
2
wobei 2 | = ein . Sei S die Zufallsvariable, die durch die Länge des Codeworts f  ( X ) gegeben ist .

Wenn f in dem Sinne optimal ist, dass es die minimal erwartete Wortlänge für X hat , dann (Shannon 1948):

Wo bezeichnet den Erwartungswertoperator .

Beweis: Quellcodierungstheorem

Gegeben X ist eine iid- Quelle, ihre Zeitreihe X 1 , ..., X n ist iid mit Entropie H ( X ) im diskretwertigen Fall und differentieller Entropie im stetigwertigen Fall. Das Quellencodierungstheorem besagt, dass für jedes ε > 0 , dh für jede Rate H ( X ) + ε größer als die Entropie der Quelle, es groß genug n und einen Codierer gibt, der n iid Wiederholung der Quelle akzeptiert, X 1: n , und ordnet sie n ( H ( X ) + ε ) binäre Bits , so daß die Source - Symbole X 1: n wiedergewinnbar sind aus den binären Bits mit einer Wahrscheinlichkeit von mindestens 1 - ε .

Nachweis der Erreichbarkeit. Fixiere einige ε > 0 und lass

Der typische Satz, Aε
nein
, ist wie folgt definiert:

Die asymptotische Äquipartitionseigenschaft (AEP) zeigt, dass für groß genug n die Wahrscheinlichkeit, dass eine von der Quelle erzeugte Folge in der typischen Menge liegt, Aε
nein
, wie definiert nähert sich einem. Insbesondere für hinreichend große n , kann beliebig nahe 1, und insbesondere größer als gemacht werden (siehe AEP für einen Nachweis).

Die Definition typischer Mengen impliziert, dass die Folgen, die in der typischen Menge liegen, erfüllen:

Beachten Sie, dass:

  • Die Wahrscheinlichkeit, dass eine Folge aus A . gezogen wirdε
    nein
    ist größer als 1 − ε .
  • , die aus der linken Seite (untere Schranke) für folgt .
  • , die sich aus der oberen Schranke für und der unteren Schranke für die Gesamtwahrscheinlichkeit der ganzen Menge A . ergibtε
    nein
    .

Da Bits ausreichen, um auf einen beliebigen String in diesem Satz zu zeigen.

Der Kodierungsalgorithmus: Der Kodierer prüft, ob die Eingabesequenz innerhalb der typischen Menge liegt; wenn ja, gibt es den Index der Eingabesequenz innerhalb des typischen Satzes aus; Wenn nicht, gibt der Codierer eine beliebige n ( H ( X ) + ε ) stellige Zahl. Solange die Eingabesequenz innerhalb der typischen Menge liegt (mit einer Wahrscheinlichkeit von mindestens 1 − ε ), macht der Encoder keinen Fehler. Die Fehlerwahrscheinlichkeit des Encoders ist also nach oben durch ε begrenzt .

Beweis für Konversation. Die Umkehrung wird bewiesen, indem gezeigt wird, dass jede Menge kleiner als Aε
nein
(im Sinne von Exponent) würde eine Menge von Wahrscheinlichkeiten abdecken, die von 1 wegbegrenzt ist .

Beweis: Quellcodierungstheorem für Symbolcodes

Für 1 ≤ in sei s i die Wortlänge jedes möglichen x i . Definiere , wobei C so gewählt wird, dass q 1 + ... + q n = 1 ist . Dann

wobei die zweite Linie aus der Gibbs-Ungleichung und die fünfte Linie aus der Kraft-Ungleichung folgt :

also log C ≤ 0 .

Für die zweite Ungleichung können wir

damit

und so

und

und so existiert nach der Kraft-Ungleichung ein präfixfreier Code mit diesen Wortlängen. Somit erfüllt das minimale S

Erweiterung auf nicht stationäre unabhängige Quellen

Verlustfreie Quellencodierung mit fester Rate für zeitdiskrete, nicht stationäre unabhängige Quellen

Definiere typischen Satz Aε
nein
wie:

Dann ist für gegebenes δ > 0 für n groß genug Pr( Aε
nein
) > 1 − δ
. Jetzt codieren wir nur die Sequenzen in den typischen Satz, und übliche Methoden in der Quellcodierung zeigen, dass die Kardinalität dieses Satzes kleiner ist als . Somit wird auf einer mittleren, H n ( X ) + ε Bits genügen zur Codierung mit einer Wahrscheinlichkeit von mehr als 1 - δ , wobei ε und δ kann beliebig klein gemacht werden, indem man n größer.

Siehe auch

Verweise