Betriebstechnik | Biographien | Biologie | Chemie | Deutsch | Digitaltechnik |
Electronica | Epochen | Fertigungstechnik | Gemeinschaftskunde | Geographie | Geschichte |
Informatik | Kultur | Kunst | Literatur | Management | Mathematik |
Medizin | Nachrichtentechnik | Philosophie | Physik | Politik | Projekt |
Psychologie | Recht | Sonstige | Sport | Technik | Wirtschaftskunde |
Ähnliche Berichte:
|
Projekte:
|
Papers in anderen sprachen:
|
informatik referate |
Digital Audio
Was ist digital Audio?
Herkömmliche analoge Audiosignale sind Spannungsschwankungen die analog an die Kopfhörer oder Laursprecher übertragen werden und dann in Schallwellen umgewandelt werden.
Bei digital audio werden diese Spannungsschwankungen digital gespeichert.Der Audio-Output eines CD-Players oder Kassettenrekorders schwankt meißtens zwischen + - 1Volt.Um von diesem analogen Signal ein digitales Abbild zu erhalten,wird diese Spannung sehr oft abgetastet = gesampelt,und die erhaltenen Informationen werden gespeichert.
Um die Qualität der so weit verbreiteten CD zu erhalten,muss das Audiosignal 44100 mal pro Sekumde mit einer Auflösung von 16 Bit = 6 535 Abstufungen gesampelt werden Die entstehende Datenmenge ist so ziemlich groß(1Minute 6 bit,44.1 Khz braucht ca 0 MB)
Der Vorteil von Digital Audio ist aber:Verlustfreies Kopieren,leichte Bearbeitung,und natürlich ein Rauschabstand,und damit auch ein Dynamikumfang von 90 db.
Um diese vorteilhaften digitalen Audiodaten zu komprimieren gibt es verschiedene Verfahren wie zb Microsoft ADPCM
oder Fraunhofer MPEG Layer 3.Näheres dazu später.
Digital Audio und Computer:
Der Computer ist das geeignetste Instrument um digitale Audioinformationen zu speichern und zu verarbeiten.
Unter dem weit verbreiteten Betriebssystem Windows gibt es folgende verlustfreie Audioformate,die alle PCM(Puls Code Modulation) genannt werden:Im Header der verschiedensten PCM Dateien sind sämtliche Daten über das File gespeichert:Samplingrate,Bitrate,Mono,Stereo,aber auch Informationen über die Quantisierung der Audiodaten(zb logarithmisch,oder linear:Bei einer logarithmischen Qantisierung wird der Dynamikbereich mehr dem menschlichem Hörempfinden angepasst,bei einer linearen quabtisierung ergibt sich ein besserer Klirrfaktor)und Informationen über das Schema der digitalisierten Audiodaten Hier gibt es bei PCM:
Intel(LSB,MSB) Motorola (MSB,LSB) und bei acht Bit-Daten: A-Law-8bit und mu-Law-8bit.
Windows PCM waveform (.WAV)
Alle WAV formatieren halten sich and das RIFF (Resource Information File Format).Spezielle Informationen wie Copyright,aber auch die Informationen über Sampleraten und Bitraten sind im sogenannten Header der Datei gespeichert.Die Standard Windows PCM Dateien enthalten unkomprimierte Audiodaten.
Sound Blaster voice file format (.VOC)
Dies ist ein eigenes PCM-Audio-Format der Firma Creative für ihre alten Soundkarten Soundblaster und Soundblaster Pro.Es war für den betrieb mit dem soundblaster unter DOS gedacht.Dieses Format unterstützt nur 8bit; 44.1Khz Mono und 2 Khz Stereo.
Apple AIFF format (.AIF, .SND)
Das ist das Apple Standard WAV-File Format (vgl.WINDOWS PCM)
Sowie Windows PCM kann auch das Apple Format komprimierte Audiodaten enthalten.Näheres dazu später.
Amiga 8SVX (.IFF, .SVX) (*
The Amiga 8SVX format is an 8-bit mono format, which can also be compressed to a 4-bit Fibonacci delta encoded format.
SampleVision format (.SMP)
Das SampleVision Format unterstützt nur 16bit/mono.Diese Format ist gedacht für Sampler.In der Datei selbst können
Loop-Markierungspunkte gespeichert werden,die einem Sampler sagen wie er das Audiomaterial behandeln soll. ASCII Text format TXT)
Data can be read to or written from files in a standard text format, with each sample separated by a carriage return and channels separated by a tab character. Options allow data to be normalized between 0 and , or written out and read in raw sample values. An optional header can be placed before the data. If there is no header text, then the data is assumed to be 16-bit signed decimal integers.
Raw PCM Data (.PCM) (* *)
Dieses Format ist das übergreifende Format aller PCM-audiodatein.In diesem Dateityp sind keine Header-Informationen gespeichert,deshalb wird beim Öffnen dieser Datei die Samplerate,sowie etwa die Quantisierung(MSM<>LSB) und die Anzahl der Kanäleabgedragt.Mit einem WAV-Editor der dieses Format unterszützt,kann man praktisch jedes unbekannte WAV-Format laden.Unbekannte Header-Informationen sind aber als kurzes Klicken oder Rauschen am Anfang der Datei hörbar.
Kodierung von Audiosignalen
Audio-Signale lassen sich zum Beispiel gegenüber Video-Signalen mit relativ geringer Bandbreite übertragen. Dennoch ist der Audio-Komponente der höchste Stellenwert zuzuschreiben, da der Mensch auf Störungen in der Ton-Wiedergabe empfindlicher reagiert als auf ein fehlerhaftes Bild. Die Komprimierungsverfahren müssen das Signal im geforderten Frequenzbereich nahezu fehlerfrei rekostruieren können.
ADPCM
Um den Bandbreitenbedarf des Audiosignals zu verringern, wird das Audiosignal bei der adaptive differential puls code modulation (ADPCM) mit einem prädiktiven Verfahren kodiert. Abbildung zeigt das Blockschaltbild des
ADPCM-Coders. Das Audiosignal wird dabei zunächst wie bei PCM abgetastet und quantisiert (hier mit 8 kHz und 8
Bit/Sample). Das PCM-Signal wird dann im PCM-Coder vom vorhergesagten Signal abgezogen und im adaptiven
Quantisierer mit 4 Bits kodiert. ADPCM arbeitet bei Übertragungsraten von , , - oder 6 kbit/s.
Microsoft ADPCM waveform (.WAV)
Wie schon erw hnt können WAV Dateien (*.wav) auch kodierte/komprimierte Audiodaten enthalten.
Microsodt ADPCM komprimiert jeden Kanal einer Audiodatei nach dem oben beschriebenen Verfahren auf 4 bit.Jedes
4 Bit Sample wird beim Laden wieder auf 16 bit expandiert.
IMA/DVI ADPCM waveform (.WAV)
Dieser Standard komprimiert 16bit Wavdatein nach einem anderen,schnelleren Schema als Microsoft ADPCM.Es hat differente Klirrfaktorcharakteristiken.
CCITT mu-Law and A-Law waveforms (.WAV)
Diese Formate komprimieren 1 bit Audio zu 8bit.Die Qualität liegt zwischen 8 und 16 bit,und ist jedenfalls besser als ADPCM. Thus, a law and mu-law encoded waveforms have a higher s n ratio than 8-bit PCM, but at the price of a little more distortion that the original 16 bit audio.
Dialogic ADPCM (.VOX)
Ein anderes 4bit ADPCM Format.Es wurde opiomiert für Sprachwiedergabe mit niedriger Samplerate.Kein File-Header.
ACM Waveform (.WAV)
Jedes Format,das bei Ihrem Computer unter Systemsteuerung>Multimedia>Audiokomprimierungscodecs installiert ist kann im ACM Format gespeichert und widergegeben werden.Zum Beispiel auch MPEG Layer3(siehe unten)
MPEG
MPEG -Audio:
MPEG 1 verwendet zur Kodierung des Audiosignals eine Technik, die das Signal zunächst in 32 Frequenzbänder teilt. Die einzelnen Spektralanteile werden dann in Abhängigkeit des enthaltenen Rauschens auf verschiedene Weise quantisiert. Zur Bestimmung des Rauschanteils wird ein ,,psychoakustisches Modell`` verwendet. Das quantisierte Signal wird in einem Code mit variabler Bitl nge kodiert und kann außerdem Huffman-entropiekodiert werden. Die
Kodierung von Stereosignalen kann getrennt je Kanal oder im joint stereo-Modus gemeinsam vorgenommen werden. Im zuletzt genannten Fall werden die Übereinstimmungen auf beiden Kanälen berücksichtigt und ein höherer Kompressionsgrad erreicht.
Die MPEG-1-Audio definiert drei Coder/Decoder, die als Layer I-III bezeichnet werden. Die Encoder sind hierarchisch kompatibel, so daß also der Decoder des Layer N in der Lage ist, Signale des Layer N und der darunter zu dekodieren. Die Komplexität der Coder und Decoder steigen mit der Ziffer des Layer.
Layer I beinhaltet das Aufsplitten des Audio-Signals in 2 Frequenzbänder, eine fixe Segmentierung der Datenblöcke und das psychoakustische Modell zur Bestimmung der Quantisierung. Layer 1 kann für Bitraten von 2 kbps pro
Audio-Kanal verwendet werden.
Layer II bietet eine zusätzliche Kodierung der Bit-Allokation, der Skalierungsfaktoren und der Samples. Layer II
erm glicht die Bit-Rate von 28 kbps pro Kanal.
Layer III erhöht die Frequenzauflösung durch eine hybride Filterbank und verwendet einen anderen Quantisierer, adaptive Segmentierung und Entropie-Kodierung der quantisierten Werte. Dieser Layer bietet Bit-Raten von 4 kbps pro Audio-Kanal.
Fragen & Antworten zum ISO-MPEG Standard
F: Was ist eigentlich MPEG ?
A: MPEG ist die Moving Pictures Expert Group, was wohl ungefär mit Expertengruppe für bewegte Bilder zu übersetzen ist (huaaaa *grin*). Diese Gruppe echt cleverer Leute arbeitet sehr eng mit der International Standards Organization (ISO) und der International Electro-Technical Commission
(IEC) zusammen (diese Übersetzungen schenke ich mir . Die MPE Group arbeitet an nichts anderem als Codec-Standards für Audio/Video-Daten und hat natürlich auch eine eigene MPEG-Homepage.
F: Was bedeutet genau MPEG 2 usw. ?
A: Die verschiedenen Standards entstanden nacheinander durch die gestiegenen Anforderungen. z.Zt. sind 3 Standards fest definiert:
MPEG-1: Coding für Video-Daten und zugehörigen Ton bis zu einer Transferrate von 5 Mbit/s
MPEG-2: 'Generic' coding für A/V-Daten (was soll blos das 'generic' hier bedeuten
[MPEG : ursprünglich geplant für das HDTV; später in MPEG-2 integriert (wahrscheinlich wegen des durchschlagenden Erfolgs von HDTV)
MPEG : Coding für Audio-Visuelle Objekte
F: Ist MPEG-3 und Layer-3 das Gleiche ?
A: NEIN ! Layer-3 ist die Bezeichnung für die Audio-Komponente der MPEG-Standards 1 und . F: Wo kann man die genauen MPEG-Spezifikationen nachlesen ?
A: Einerseits bei der ISO-WWW-Seite, oder über E-Mail bei/in der DIN.
Wie funktioniert MP3?
Allgemein hat man zwei Möglichkeiten, um die erfordeliche Datenmenge zu reduzieren. Entweder man sampelt weniger oft, oder sampelt mit einer geringeren Auflösung (als 6bit/sample). Um die Qualität zu erhalten, kann man an der Samplefrequenz nichts ändern. Das hat folgenden Grund: Das menschliche Ohr hört Frequenzen im Bereich von
20Hz bis 20kHz (Mittelwert); und nach der sogenannten Nyquist-Theorie muß die Sample-Frequenz doppelt so groß sein, wie die die höchste Frequenz, die man speichern will. Da diese Theorie allgemein anerkannt wird, läßt man die Samplefrequenz wie sie ist, und reduziert die Auflösung der Sampels.
Nun, da wir das wissen, müssen wir auf die Auflösung der Sampels genauer eingehen:
Der Grund, warum die Sampels 6bit groß sind, ist folgender: Man will eine ausreichend große
Signal-to-noise-Ratio (Signalrauschabstand, 's/n') erhalten. Das Rauschen, um welches es hier geht, entsteht gezwungenermassen beim Digitalisieren der Sounddaten und wird im Fachjargon Quantisierungsrauschen (quantisation noise) genannt. Für jedes Bit, welches man dem Sampel hinzufügt erhält man eine um 6dB bessere s/n (+6dB entspricht etwa einer Verdopplung der Lautstärke, oder einer Vervierfachung der
Watt-Leistung). Eine Audio-CD hat eine s/n von etwa 90dB, was ausreicht, um dem menschlichen Ohr ein
rauschfreies Signal zu bieten.
Was passiert nun, wenn man die Grösse der Sampels auf 8bit reduziert ? Die Sounddaten werden mit einem hörbaren Hintergrundrauschen (noise floor) unterlegt, den man in leisen Passagen deutlich hört. Aber eben nur in leisen Passagen ! Laute T ne überlagern den noise floor, was man masking effect nennt, und genau das
ist der Schlüssel zur MPEG Audio Komprimierung. Effekte, wie dieser, gehören zu einer Wissenschaft, die sich psyco-acustics nennt, und sich damit beschäftigt, wie das menschliche Gehirn und Gehöhr Töne verarbeiten.
Nun kommen wir endlich dazu, darauf einzugehen, wie die MPEG Audio Komprimierung diesen Effekt nutzt: Am besten lässt sich das an einem Beispiel erklären. Nehmen wir mal an, wir haben zwei T ne, einen bei
1000Hz und den zweiten bei 1100Hz. Letzterer ist 18dB leiser, als der erste. Der Ton bei 1100Hz würde vollkommen von dem bei 1000Hz überdeckt/maskiert werden, und somit unhörbar. Ein dritter Ton bei 2000Hz mit -18dB relativ zum 1000Hz Ton wäre wieder hörbar, wenn man den Pegel dieses Tones auf -45dB absenkt, würde er wieder maskiert werden. Eine direkte Folge davon ist, daß um den lauten) 000Hz Ton auch der noise floor maskiert wird, deshalb können wir in diesem Bereich die Größe der Sampels reduzieren, was weniger Daten/Sample entspricht, somit also eine Kompression ist.
Was sich hier mit drei T nen noch recht einfach anh rt, verlangt in einem komplexen Audio-Signal natürlich einigen frequenzanalytischen und mathematischen Aufwand.
'Wie macht das nun ein MPEG Audio-coder ?' ist die nächste Frage, die man hier stellt. Er unterteilt das Frequenzspektrum eines Audio-Signals 20Hz bis 20kHz) in 32 sog. Sub-Bands. Nehmen wir nun mal an, im oberen Bereich von Sub-Band 8 liegt unser 1000Hz Ton mit einer Lautstärke von 60dB. Der Coder berechnet nun den masking effect und stellt fest, daß der masking treshold Maskierungs Schwellenwert, frei übersetzt) für das komplette . Sub-Band 35dB unter diesem Ton liegt. Daraus resultiert eine benötigte S/N-Ratio von
60dB-35dB = 25dB, was einer Sampelgröße von 4 bit entspricht. Zusätzlich treten natürlich noch in allen neben dem Sub-Band 8 liegenden Bändern Maskierungseffekte auf, die mit dem Abstand zum Ursprungsband abnehmen. Diese Beeinflussung der Bänder untereinander, wird von den Coding-Routinen ebenfalls berücksichtigt, was die Berechnungen noch komplexer macht.
Die Aufteilung der Sub-Bands ist ebenfalls eine wichtige Komponente der Kodierung. Waren in Layer II noch alle 2 Sub-Bands gleich groß (625Hz), so sind sie in Layer III an die Eigenschaften des Ohres angepasst, also kleiner in den empfindlicheren Bereichen, die (logischerweise) im Bereich der menschlichen Stimme liegen 2 bis 4 kHz), was auch wieder komplexere Filter erfordert. In diesem Punkt hat man auf eine bereits bestehende Filtertechnik zurückgegriffen, die DCT-Filter (Discrete Cosinus Transformation), auf die ich
hier nicht weiter eingehen möchte.
Der nächste, vom Coder berücksichtigte Effekt, ist das sogenannte Pre- & Postmasking. Findet in einem
Soundsignal ein großer Sprung in der Lautstärke statt (mind. 30dB), so tritt ein Premasking Effekt auf, der um
2-5 Millisekunden maskiert, sowie ein Postmasking Effekt, der bis zu 100ms abdecken kann. Man glaubt, daß dieser Effekt daraus resultiert, daß das Gehirn eine gewisse Zeit braucht, um eine solche Dynamik umzusetzen.
Der letzte Schritt vor der Formatierung der Daten, ist ein sog. Huffman-coding, welches folgendermaßen arbeitet: Es ersetzt lange, häuftiger vorkommende Datenketten, durch kürzere, und speichert für den Decodiervorgang diese Zuweisung einmal ab. Diese Art der Kodierung arbeitet verlustfrei, und ist u a. auch die Basis für Kompressionsalgorithmen für Computerdaten (wie ZIP, LHA, RAR usw.).
Alle diese masking effects und Kodierungen werden in einem iterativen Prozess berücksichtigt/berechnet, welcher bei Layer II mit 23ms time-windows arbeitet, was bei sehr dynamikreichem Klangmaterial noch zu Problemen führen kann. Im Layer III Format hat man sich dieses Problems angenommen, vermutlich durch eine Verkleinerung der time-windows.
Übersicht der Komprimierungsfaktoren bei MPEG:
|
für Layer 1 (entspricht 384 kbps für ein stereo signal), für Layer 2 (entspricht 2 kbps für ein stereo signal), |
|
|
für Layer 3 (entspricht 2 kbps für ein stereo signal), |
Durch Auslassen des Stereo Effekts u/o Verringern der Bandbreite (Frequenzumfang des Signals) lassen sich noch höhere Kompressionsraten bei geringeren Bitraten erreichen. Die folgende Tabelle stellt bekannte Soundqualitäten den entsprechenden Layer-3 Kompressionsfaktoren gegenüber:
Klangqualität Telefon besser als Kurzwelle |
Bandbreite 2.5 kHz 4.5 kHz |
Modus mono mono |
Bitrate 8 kbps 16 kbps |
Kompressionsfaktor |
besser als Mittelwelle ähnlich wie UKW fast CD CD |
7.5 kHz 11 kHz 15 kHz >15 kHz |
mono stereo stereo stereo |
32 kbps 56...64 kbps 96 kbps 112..128kbps |
|
Viele Leute wollen erstmal nicht glauben, daß, trotz einer prinzipbedingt verlustbehafteten Kompression, die Qualität erhalten bleibt.Deshalb ist hier eine Grafik dargestellt:Es wurde von einer Audiocd
ein Stück digital ausgelesen.Das resultierende Wav-File wurde einmal mit 128kbit/s und einmal mit 96kbit/s gepackt, und die beiden mp3-Files wieder in wav-Files zurückgewandelt. Dann wurden alle drei Files in einen Wave-Editor geladen und die Wellenformdarstellungen einer Passage auf das Sample genau übereinandergelegt.
MP3 Encoder und Player:
Es ist nicht gleich,von welcher Softwarefirma der Encoder und/oder Player ist.Dies nicht etwa aus Gründen der Komfortabilität oder aufgrund einer attraktiven Oberfläche,sondern aufgrund der Firmenpolitik der Firma Fraunhofer.Die veröffentlichen ISO Definitionen über das Codierungs und Decodierungsverfahren sin unvollständig.So weicht die Klangqualität bei den unterschiedlichen Encodern ab.Bei besseren Encodern ist sogar zwischen zwei Schemen wählbar,nach denen das audiomaterial codiert wird.Auch ist nicht jeder Player diesbezüglich gleich.Ich kann einen hörbaren Unterschied zwischen WINAMP und einen MP3 Player direkt von der Firma Fraunhofer bei dem gleichen MP3 File erkennen.
Andere Audiokomprimierungen
Vor kurzem hat die Firma Microsoft mit einem eigenen Sytem gekontert.das angeblich eine Komprimierung
ohne hörbaren Unterschied von bis zu 1 ermöglicht.Sony will dieses Komprimierungsformat in eigene Audiogeräte integrieren.
Weiters hat die Firma Fraunhofer MPEG Layer 4 in Arbeit.
FAZIT UND ZUSSAMMENFASSUNG:
MPEG - Kompression mit Köpfchen
Eines der wichtigsten Kompressionsverfahren für Audios und Videos ist MPEG. MPEG ist und wird vom Frauenhofer Institut für Integrierte Schaltungen entwickelt und weiterentwickelt. Grundlage des MPEG-Verfahrens ist die Biologie des Menschen. Der Mensch selbst kann nicht alle Informationen wahrnehmen, zum Beispiel bemerkt er bestimmte Farbänderungen, oder bestimmte Unterfrequenzen nicht. Somit ist es möglich, nicht nur den Datenstrom an sich mit mathematischen Modellen zu komprimieren, sondern ganz gezielt Informationen aus dem Datenstrom herauszuschneiden, die der Mensch bei der Wiedergabe kaum wahrnimmt. Außerdem ist bekannt, daß man Bilder wesentlich effizienter speichern kann, wenn man sich von Bild zu Bild nur die Unterschiede in den einzelnen
Bildern merkt. Im Falle von Audio kann man ebenfalls den Datenstrom auf diese Weise komprimieren. Audios weisen nämlich meist auch die Eigenschaft auf, daß von Abstastung zu Abtastung nur relativ selten starke Anderungen eintreten. Alles in allem setzte man alle drei Kodierungsmöglichkeiten, differenzielle Kodierung (nur Wertänderungen abspeichern), verlustbehaftete Kodierung (Daten können nicht 1 0%ig restauriert werden - Qualität wird bedingt durch die Biologie jedoch nicht beeinträchtigt) und die Reduzierung der Quellenentropie (Mathematisches Modell der Datenkompression) zu dem MPEG 1
Verfahren zusammen. Bereits mit MPEG 1 konnte man Komprimierungsraten von bis zu 1 3 (Bedarf beträgt nur etwa 1 3 des ursprünglichen Platzbedarfes) erreichen. Mit MPEG-2 verfeinerte man vor allem die Erkennung von biologischen Faktoren und damit die weitere Entfernung von Informationen im digitalen Datenstrom, die der Mensch nicht wahrnehmen kann. Mit MPEG-2 erreichte man nun immerhin schon Kompressionsraten bis zu 6. Erst Mitte 1 97 brachte die Frauenhofergesellschaft für Audios ein neues Verfahren heraus - MPEG-3. Mit MPEG 3 kann man Audio ohne Qualitätsverlust bis auf 1 2 der
Orginalgrö e schrumpfen lassen. Diese hohe Kompressionsrate erreicht man außerdem durch eine verbesserte differentielle Kodierung. Im Gegensatz zur herkömmlichen differentiellen Kodierung setzt man bei MPEG-3 auf folgendes Verfahren: Zu jedem Zeitpunkt wird bereits die Nachfolgeinformation berechnet, wie sie eventuell aussehen könnte. Im eigentlichen Datenstrom stehen nun nur noch die Informationen ber die Anderung zur Vorausberechnung. Da die Vorausberechnung in den meisten Fällen den eigentlichen Werten sehr hnelt, müssen nur noch wenige Informationen gespeichert werden, was den Datenstrom erheblich reduziert.
Doch auch mit solchen Erfolgen sollte man nicht aufgeben. Biologen haben herausgefunden das der 'Datenstrom' im Menschen zwischen Ohr und Gehirn nur wenige KByte s beträgt. Rein theoretisch sind somit noch weit bessere Kompressionsraten möglich, nur im Moment weiß noch niemand, wie diese Informationen dermaßen stark komprimiert werden könnten. Die Videokomprimierung nach MPEG3 wird sicherlich noch einige Zeit auf sich warten lassen, da Videos eine wesentlich höhere Komplexität besitzten als Audios.
All rights reserved
(1999) Funky-Flo
This document may be distributed free,but it MUS NOT BE altered. NO COMMERCIAL USE
Theese 3 links must not be removed: https://www.musica.at/funkyflo/ https://www.8ung.at/funktheworld/ https://funkyflo.virtualave.net/mp3search/
have a lot of sucess with this information ☺
Referate über:
|
Datenschutz |
Copyright ©
2024 - Alle Rechte vorbehalten AZreferate.com |
Verwenden sie diese referate ihre eigene arbeit zu schaffen. Kopieren oder herunterladen nicht einfach diese # Hauptseite # Kontact / Impressum |