Audio-Bittiefe - Audio bit depth

Ein analoges Signal (in Rot), das in digitale 4-Bit-PCM-Samples (in Blau) kodiert ist; die Bittiefe beträgt vier, sodass die Amplitude jedes Samples einer von 16 möglichen Werten ist.

In digitalem Audio unter Verwendung von Pulscodemodulation (PCM), Bittiefe ist die Anzahl von Bits von Informationen in jeder Probe , und sie entspricht direkt die Auflösung jeder Probe. Beispiele für die Bittiefe sind Compact Disc Digital Audio , das 16 Bit pro Sample verwendet, und DVD-Audio und Blu-ray Disc, die bis zu 24 Bit pro Sample unterstützen können.

Bei grundlegenden Implementierungen beeinflussen Variationen der Bittiefe hauptsächlich den Rauschpegel aufgrund von Quantisierungsfehlern – also das Signal-Rausch-Verhältnis (SNR) und den Dynamikbereich . Techniken wie Dithering , Noise Shaping und Oversampling mildern diese Effekte jedoch ab, ohne die Bittiefe zu ändern. Die Bittiefe beeinflusst auch die Bitrate und die Dateigröße.

Die Bittiefe ist nur in Bezug auf ein digitales PCM- Signal von Bedeutung . Nicht-PCM-Formate, wie beispielsweise verlustbehaftete Komprimierungsformate , haben keine zugehörigen Bittiefen.

Binäre Darstellung

Ein PCM-Signal ist eine Folge von digitalen Audio-Samples, die die Daten enthalten, die die notwendigen Informationen liefern, um das ursprüngliche analoge Signal zu rekonstruieren . Jeder Abtastwert stellt die Amplitude des Signals zu einem bestimmten Zeitpunkt dar, und die Abtastwerte sind zeitlich gleichmäßig beabstandet. Die Amplitude ist die einzige explizit im Sample gespeicherte Information, die normalerweise entweder als Ganzzahl oder als Gleitkommazahl gespeichert wird , codiert als Binärzahl mit einer festen Anzahl von Stellen: die Bittiefe des Samples , auch als Wortlänge bezeichnet oder Wortgröße.

Die Auflösung gibt die Anzahl der diskreten Werte an, die über den Analogwertbereich dargestellt werden können. Die Auflösung binärer Ganzzahlen nimmt mit zunehmender Wortlänge exponentiell zu. Das Hinzufügen eines Bits verdoppelt die Auflösung, das Hinzufügen von zwei vervierfacht sie und so weiter. Die Anzahl möglicher Werte, die durch eine ganzzahlige Bittiefe dargestellt werden können, kann unter Verwendung von 2 n berechnet werden , wobei n die Bittiefe ist. Somit hat ein 16-Bit- System eine Auflösung von 65.536 (2 16 ) möglichen Werten.

Ganzzahlige PCM-Audiodaten werden typischerweise als vorzeichenbehaftete Zahlen im Zweierkomplementformat gespeichert.

Viele Audiodateiformate und digitale Audio - Workstations (DAWs) jetzt Unterstützung PCM - Formate mit Proben , dargestellt durch Gleitkommazahlen. Sowohl das WAV- Dateiformat als auch das AIFF- Dateiformat unterstützen Gleitkommadarstellungen. Im Gegensatz zu ganzen Zahlen, deren Bitmuster eine einzelne Reihe von Bits ist, besteht eine Gleitkommazahl stattdessen aus separaten Feldern, deren mathematische Beziehung eine Zahl bildet. Der gebräuchlichste Standard ist IEEE 754, der aus drei Feldern besteht: einem Vorzeichenbit, das angibt, ob die Zahl positiv oder negativ ist, einem Exponenten und einer Mantisse, die durch den Exponenten erhöht wird. Die Mantisse wird als binärer Bruch in IEEE-Basis-2-Gleitkommaformaten ausgedrückt .

Quantisierung

Die Bittiefe begrenzt das Signal-Rausch-Verhältnis (SNR) des rekonstruierten Signals auf einen maximalen Pegel, der durch den Quantisierungsfehler bestimmt wird . Die Bittiefe hat keinen Einfluss auf den Frequenzgang , der durch die Abtastrate eingeschränkt wird .

Ein während der Analog-Digital-Wandlung (ADC) eingeführter Quantisierungsfehler kann als Quantisierungsrauschen modelliert werden. Es handelt sich um einen Rundungsfehler zwischen der analogen Eingangsspannung des ADC und dem digitalisierten Ausgangswert. Das Rauschen ist nichtlinear und signalabhängig.

Eine 8-Bit- Binärzahl (149 als Dezimalzahl ), wobei das LSB hervorgehoben ist

In einem idealen ADC, bei dem der Quantisierungsfehler gleichmäßig zwischen den niederwertigsten Bits (LSB) verteilt ist und das Signal eine gleichmäßige Verteilung hat, die alle Quantisierungsstufen abdeckt, kann das Signal-Quantisierungs-Rausch-Verhältnis (SQNR) berechnet werden aus

wobei Q die Anzahl der Quantisierungsbits ist und das Ergebnis in Dezibel (dB) gemessen wird .

Daher hat digitales 16-Bit-Audio auf CDs ein theoretisches maximales SNR von 96 dB und professionelles digitales 24-Bit-Audio erreicht 144 dB. Ab 2011 ist die digitale Audiokonvertertechnologie auf ein SNR von etwa 123 dB ( effektiv 21 Bits) aufgrund realer Einschränkungen beim Design integrierter Schaltungen beschränkt . Dies entspricht jedoch in etwa der Leistung des menschlichen Gehörs . Mehrere Wandler können verwendet werden, um verschiedene Bereiche des gleichen Signals abzudecken, indem sie kombiniert werden, um langfristig einen größeren Dynamikbereich aufzuzeichnen, während sie kurzfristig immer noch durch den Dynamikbereich des einzelnen Wandlers begrenzt sind, der als Dynamikbereichserweiterung bezeichnet wird .

Signal-Rausch-Verhältnis und Auflösung der Bittiefen
# Bits SNR Mögliche ganzzahlige Werte (pro Sample) Basis-Ten-Vorzeichenbereich (pro Probe)
4 24,08 dB 16 -8 bis +7
8 48,16 dB 256 -128 bis +127
11 66,22 dB 2048 −1024 bis +1023
12 72,24 dB 4096 −2048 bis +2047
16 96,33 dB 65.536 −32.768 bis +32.767
18 108,37 dB 262.144 -131072 bis +131071
20 120,41 dB 1.048.576 −524.288 bis +524.287
24 144,49 dB 16.777.216 −8.388.608 bis +8.388.607
32 192,66 dB 4.294.967.296 −2.147.483.648 bis +2.147.483.647
48 288,99 dB 281.474.976.710.656 −140.737.488.355.328 bis +140.737.488.355.327
64 385.32 dB 18.446.744.073.709.551.616 −9.223.372.036.854.775.808 bis +9.223.372.036.854.775.807

Gleitkomma

Die Auflösung von Gleitkomma-Samples ist weniger einfach als ganzzahlige Samples, da Gleitkomma-Werte nicht gleichmäßig verteilt sind. Bei der Gleitkommadarstellung ist der Abstand zwischen zwei benachbarten Werten proportional zum Wert. Dies erhöht das SNR im Vergleich zu einem ganzzahligen System stark, da die Genauigkeit eines Signals mit hohem Pegel der Genauigkeit eines identischen Signals bei einem niedrigeren Pegel entspricht.

Der Kompromiss zwischen Gleitkomma- und Ganzzahlen besteht darin, dass der Abstand zwischen großen Gleitkommawerten größer ist als der Abstand zwischen großen ganzzahligen Werten derselben Bittiefe. Das Runden einer großen Gleitkommazahl führt zu einem größeren Fehler als das Runden einer kleinen Gleitkommazahl, während das Runden einer ganzen Zahl immer zu derselben Fehlerstufe führt. Mit anderen Worten, Ganzzahlen haben eine gleichmäßige Rundung, wobei das LSB immer auf 0 oder 1 gerundet wird, und Gleitkommazahlen haben ein gleichmäßiges SNR, der Quantisierungsrauschpegel ist immer in einem bestimmten Verhältnis zum Signalpegel. Ein Fließkomma-Noise Floor steigt mit steigendem Signal und sinkt mit fallendem Signal, was zu einer hörbaren Varianz führt, wenn die Bittiefe niedrig genug ist.

Audioverarbeitung

Die meisten Verarbeitungsoperationen an digitalem Audio beinhalten die Neuquantisierung von Abtastwerten und führen somit einen zusätzlichen Rundungsfehler analog zu dem ursprünglichen Quantisierungsfehler ein, der während der Analog-Digital-Wandlung eingeführt wird. Um einen Rundungsfehler zu verhindern, der größer als der implizite Fehler während des ADC ist, müssen Berechnungen während der Verarbeitung mit höheren Genauigkeiten als die Eingabeabtastwerte durchgeführt werden.

Die Operationen der digitalen Signalverarbeitung (DSP) können entweder mit Festkomma- oder Gleitkomma-Präzision durchgeführt werden. In jedem Fall wird die Genauigkeit jeder Operation durch die Genauigkeit der Hardwareoperationen bestimmt, die verwendet werden, um jeden Schritt der Verarbeitung durchzuführen, und nicht durch die Auflösung der Eingabedaten. Auf x86- Prozessoren werden beispielsweise Gleitkommaoperationen mit einfacher oder doppelter Genauigkeit und Festkommaoperationen mit 16-, 32- oder 64-Bit-Auflösung ausgeführt. Folglich wird die gesamte Verarbeitung auf Intel-basierter Hardware mit diesen Einschränkungen durchgeführt, unabhängig vom Quellformat.

Digitale Festkomma- Signalprozessoren unterstützen oft bestimmte Wortlängen, um bestimmte Signalauflösungen zu unterstützen. Zum Beispiel verwendet der Motorola 56000 DSP-Chip 24-Bit-Multiplizierer und 56-Bit-Akkumulatoren, um Multiplikations-Akkumulations-Operationen an zwei 24-Bit-Abtastwerten ohne Überlauf oder Abschneiden durchzuführen . Bei Geräten, die keine großen Akkumulatoren unterstützen, können Festkomma-Ergebnisse abgeschnitten werden, was die Genauigkeit verringert. Fehler treten durch mehrere DSP-Stufen mit einer Rate auf, die von den ausgeführten Operationen abhängt. Bei unkorrelierten Verarbeitungsschritten an Audiodaten ohne DC-Offset wird angenommen, dass Fehler zufällig mit einem Mittelwert von null sind. Unter dieser Annahme repräsentiert die Standardabweichung der Verteilung das Fehlersignal, und der Quantisierungsfehler skaliert mit der Quadratwurzel der Anzahl von Operationen. Für Algorithmen, die eine wiederholte Verarbeitung erfordern, wie z. B. Faltung , ist eine hohe Genauigkeit erforderlich . Auch bei rekursiven Algorithmen, wie z. B. Filtern mit unendlicher Impulsantwort (IIR) ist eine hohe Präzision erforderlich . Im speziellen Fall von IIR-Filtern können Rundungsfehler den Frequenzgang verschlechtern und Instabilität verursachen.

Dither

Headroom und Noise Floor in Audioprozessstufen zum Vergleich mit dem Dither-Pegel

Das durch den Quantisierungsfehler eingeführte Rauschen, einschließlich Rundungsfehler und Genauigkeitsverlust, die während der Audioverarbeitung eingeführt werden, kann abgeschwächt werden, indem dem Signal vor der Quantisierung eine kleine Menge zufälligen Rauschens, Dither genannt , hinzugefügt wird . Dithering eliminiert nichtlineares Quantisierungsfehlerverhalten, was zu einer sehr geringen Verzerrung führt, jedoch auf Kosten eines leicht erhöhten Grundrauschens . Empfohlenes Dithering für digitales 16-Bit-Audio, gemessen mit der Rauschbewertung ITU-R 468, liegt etwa 66 dB unter dem Ausrichtungspegel oder 84 dB unter dem digitalen Vollausschlag , was mit dem Mikrofon- und Raumrauschpegel vergleichbar ist und daher bei 16- bisschen Audio.

24-Bit-Audio erfordert kein Dithering, da der Rauschpegel des Digitalwandlers immer lauter ist als der erforderliche Pegel eines eventuell angewendeten Dithers. 24-Bit-Audio könnte theoretisch einen Dynamikbereich von 144 dB codieren, aber basierend auf den Datenblättern des Herstellers gibt es keine ADCs, die mehr als ~125 dB liefern können.

Dither kann auch verwendet werden, um den effektiven Dynamikbereich zu erhöhen. Der wahrgenommene Dynamikbereich von 16-Bit-Audio kann mit geräuschförmigem Dither 120 dB oder mehr betragen, wobei der Frequenzgang des menschlichen Ohrs ausgenutzt wird.

Dynamikumfang und Headroom

Der Dynamikbereich ist die Differenz zwischen dem größten und kleinsten Signal, das ein System aufzeichnen oder wiedergeben kann. Ohne Dither korreliert der Dynamikbereich mit dem Quantisierungsrauschen. Beispielsweise ermöglicht eine 16-Bit-Integer-Auflösung einen Dynamikbereich von etwa 96 dB. Bei richtiger Anwendung von Dither können digitale Systeme Signale mit Pegeln reproduzieren, die niedriger sind als ihre Auflösung normalerweise zulassen würde, wodurch der effektive Dynamikbereich über die durch die Auflösung vorgegebene Grenze hinaus erweitert wird. Die Verwendung von Techniken wie Oversampling und Rauschformung kann den Dynamikbereich von abgetastetem Audio weiter erweitern, indem der Quantisierungsfehler aus dem interessierenden Frequenzband herausbewegt wird.

Ist der Maximalpegel des Signals niedriger als die Bittiefe erlaubt, hat die Aufnahme Headroom . Die Verwendung höherer Bittiefen während der Studioaufnahme kann Headroom zur Verfügung stellen, während der gleiche Dynamikbereich beibehalten wird. Dies reduziert das Clipping- Risiko , ohne die Quantisierungsfehler bei niedrigen Lautstärken zu erhöhen.

Oversampling

Oversampling ist eine alternative Methode, um den Dynamikbereich von PCM-Audio zu erhöhen, ohne die Anzahl der Bits pro Sample zu ändern. Beim Oversampling werden Audiosamples mit einem Vielfachen der gewünschten Samplerate erfasst. Da angenommen wird, dass der Quantisierungsfehler gleichförmig mit der Frequenz verteilt ist, wird ein Großteil des Quantisierungsfehlers zu Ultraschallfrequenzen verschoben und kann durch den Digital-Analog-Umsetzer während der Wiedergabe entfernt werden.

Für eine Erhöhung, die n zusätzlichen Bits der Auflösung entspricht, muss ein Signal um überabgetastet werden

Ein 14-Bit-ADC kann beispielsweise 16-Bit-48-kHz-Audio erzeugen, wenn er mit 16× Oversampling oder 768 kHz betrieben wird. Überabgetastetes PCM tauscht daher weniger Bits pro Abtastwert gegen mehr Abtastwerte aus, um die gleiche Auflösung zu erhalten.

Der Dynamikbereich kann auch durch Oversampling bei der Signalrekonstruktion verbessert werden, ohne Oversampling an der Quelle. Betrachten Sie 16-fache Überabtastung bei der Rekonstruktion. Jeder Abtastwert bei der Rekonstruktion wäre insofern einzigartig, als für jeden der ursprünglichen Abtastpunkte sechzehn eingefügt würden, die alle von einem digitalen Rekonstruktionsfilter berechnet wurden . Der Mechanismus der erhöhten effektiven Bittiefe ist wie zuvor diskutiert, das heißt, die Quantisierungsrauschleistung wurde nicht reduziert, aber das Rauschspektrum wurde über das 16-fache der Audiobandbreite gespreizt.

Historischer Hinweis – Der Compact Disc-Standard wurde in Zusammenarbeit zwischen Sony und Philips entwickelt. Das erste Sony Consumer-Gerät verfügte über einen 16-Bit-DAC; die ersten Philips-Einheiten duale 14-Bit-DACs. Dies führte zu Verwirrung auf dem Markt und sogar in Fachkreisen, denn 14-Bit-PCM ermöglicht 84 dB SNR, 12 dB weniger als 16-Bit-PCM. Philips hatte 4× Oversampling mit Noise Shaping erster Ordnung implementiert , das theoretisch den vollen 96 dB Dynamikbereich des CD-Formats realisiert. In der Praxis wurde der Philips CD100 mit 90 dB SNR im Audioband von 20 Hz bis 20 kHz bewertet, genau wie der CDP-101 von Sony.

Geräuschformung

Die Überabtastung eines Signals führt zu gleichem Quantisierungsrauschen pro Bandbreiteneinheit bei allen Frequenzen und einem Dynamikbereich, der sich nur mit der Quadratwurzel des Überabtastverhältnisses verbessert. Noise Shaping ist eine Technik, die bei höheren Frequenzen zusätzliches Rauschen hinzufügt, wodurch einige Fehler bei niedrigeren Frequenzen ausgeglichen werden, was zu einer größeren Zunahme des Dynamikbereichs beim Oversampling führt. Bei der Rauschformung n- ter Ordnung wird der Dynamikbereich eines überabgetasteten Signals um zusätzliche 6 n  dB gegenüber einer Überabtastung ohne Rauschformung verbessert . Beispielsweise wird für ein analoges 20-kHz-Audio, das mit 4× Oversampling mit Rauschformung zweiter Ordnung abgetastet wurde, der Dynamikbereich um 30 dB erhöht. Daher hätte ein bei 176 kHz abgetastetes 16-Bit-Signal eine Bittiefe gleich einem bei 44,1 kHz abgetasteten 21-Bit-Signal ohne Rauschformung.

Die Rauschformung wird üblicherweise mit Delta-Sigma-Modulation implementiert . Mit Delta-Sigma-Modulation erreicht Direct Stream Digital ein theoretisches SNR von 120 dB bei Audiofrequenzen unter Verwendung von 1-Bit-Audio mit 64-fachem Oversampling.

Anwendungen

Die Bittiefe ist eine grundlegende Eigenschaft digitaler Audioimplementierungen. Je nach Anwendungsanforderungen und Ausstattungsmöglichkeiten werden unterschiedliche Bittiefen für unterschiedliche Anwendungen verwendet.

Beispielanwendungen und unterstützte Audio-Bittiefe
Anwendung Beschreibung Audioformat(e)
CD-DA (Rotes Buch) Digitale Medien 16-Bit- LPCM
DVD-Audio Digitale Medien 16-, 20- und 24-Bit-LPCM
Super Audio-CD Digitale Medien 1-Bit- Direktstream-Digital ( PDM )
Blu-ray Disc-Audio Digitale Medien 16-, 20- und 24-Bit-LPCM und andere
DV- Audio Digitale Medien 12- und 16-Bit unkomprimiertes PCM
ITU-T- Empfehlung G.711 Komprimierungsstandard für Telefonie 8-Bit-PCM mit Kompandierung
NICAM -1, NICAM-2 und NICAM-3 Komprimierungsstandards für den Rundfunk 10-, 11- und 10-Bit-PCM jeweils mit Kompandierung
Eifer DAW von Paul Davis und der Ardour Community 32-Bit-Gleitkomma
Pro Tools 11 DAW von Avid Technology 16- und 24-Bit- oder 32-Bit-Gleitkomma-Sitzungen und 64-Bit-Gleitkomma- Mixing
Logic Pro X DAW von Apple Inc. 16- und 24-Bit-Projekte und 32-Bit- oder 64-Bit-Gleitkomma- Mixing
Cubase DAW von Steinberg Ermöglicht die Audioverarbeitungspräzision auf 32-Bit-Float oder 64-Bit-Float
Ableton Live DAW von Ableton 32-Bit-Gleitkomma-Bittiefe und 64-Bit-Summierung
Grund 7 DAW von Propellerhead Software 16-, 20- und 24-Bit-I/O, 32-Bit-Gleitkommaarithmetik und 64-Bit-Summierung
Schnitter 5 DAW von Cockos Inc. 8-Bit-PCM, 16-Bit-PCM, 24-Bit-PCM, 32-Bit-PCM, 32-Bit-FP, 64-Bit-FP, 4-Bit-IMA ADPCM & 2-Bit-cADPCM- Rendering ;

8-Bit-Int, 16-Bit-Int, 24-Bit-Int, 32-Bit-Int, 32-Bit-Float und 64-Bit-Float- Mixing

GarageBand '11 (Version 6) DAW von Apple Inc. 16-Bit-Standard mit 24-Bit-Aufnahme von echten Instrumenten
Unverfrorenheit Open-Source-Audio-Editor 16- und 24-Bit-LPCM und 32-Bit-Gleitkomma
FL Studio DAW von Image-Line 16- und 24-Bit-Int und 32-Bit-Gleitkomma (vom Betriebssystem gesteuert)

Bitrate und Dateigröße

Die Bittiefe beeinflusst die Bitrate und die Dateigröße. Bits sind die Grundeinheit von Daten, die in der Computer- und digitalen Kommunikation verwendet werden. Die Bitrate bezieht sich auf die Datenmenge, insbesondere Bits, die pro Sekunde gesendet oder empfangen werden. Bei MP3 und anderen verlustbehafteten komprimierten Audioformaten beschreibt die Bitrate die Informationsmenge, die zum Kodieren eines Audiosignals verwendet wird. Es wird normalerweise in kb/s gemessen .

Siehe auch

Anmerkungen

Verweise

  • Ken C. Pohlmann (15. Februar 2000). Prinzipien des digitalen Audios (4. Aufl.). McGraw-Hill-Profi. ISBN 978-0-07-134819-5.