M agazyn  


Kompresja plik≤w multimedialnych
Andrzej Paj▒k


N iegdy╢ drogie i czasoch│onne techniki cyfrowej obr≤bki danych audio i wideo dzi╢ praktycznie s▒ dostΩpne dla og≤│u. Wystarczy mieµ szybki komputer i odpowiednie oprogramowanie. Jedn▒ z takich technik jest kompresja d╝wiΩku. Kompresja plik≤w multimedialnych jest kluczem do wprowadzenia d╝wiΩku i obrazu o najwy┐szej jako╢ci do ╢wiata komputer≤w. Najpopularniejszym i og≤lnie przyjΩtym formatem kodowania danych medialnych jest standard MPEG.

Po co kompresja?


Jedna sekunda sygna│u audio stereo pr≤bkowanego z rozdzielczo╢ci▒ 16-bit≤w przy czΩstotliwo╢ci 44,1 kHz (jako╢µ CD) zajmuje na dysku 1400 kbit≤w, czyli 1 minuta to w przybli┐eniu 10,5 MB. U┐ycie kompresji MPEG mo┐e zmniejszyµ tΩ wielko╢µ o 12 razy (1 min > 1 MB), bez zauwa┐alnej straty jako╢ci. Mo┐liwa jest nawet 24-krotna redukcja wielko╢ci; wtedy jako╢µ co prawda spada, ale i tak jest lepsza ni┐ pr≤by nagrania tego samego pliku z mniejsz▒ rozdzielczo╢ci▒ lub czΩstotliwo╢ci▒ pr≤bkowania. Tak du┐y stopie± kompresji jest mo┐liwy dziΩki algorytmowi, jaki wykorzytsuje MPEG. Polega on na wykorzystaniu niedoskona│o╢ci ludzkiego zmys│u s│uchu, a konkretnie usuniΩciu tych czΩ╢ci sygna│u d╝wiΩkowego, kt≤rych nie s│yszymy.

MP3


Przegl▒daj▒c strony w Internecie mo┐emy od pewnego czasu natkn▒µ siΩ na pliki z rozszerzeniem MP3. Jest to jeden z rodzaj≤w skompresowanych plik≤w d╝wiΩkowych zgodnie ze standardem MPEG 2 Layer-3 (patrz ramka). Jest to obecnie najwydajniejszy spos≤b kompresji plik≤w d╝wiΩkowych, kt≤rego podstawow▒ zalet▒ jest redukcja wielko╢ci pliku. Co wa┐niejsze, zmniejszenie prΩdko╢ci przesy│ania danych pozwala na przesy│anie d╝wiΩku wsp≤│czesnymi ╢rodkami komunikacji, w tym Internetem. Przyk│adowo d╝wiΩk stereo, o jako╢ci radia FM, wymaga do przesy│ania prΩdko╢ci tylko 56-64 kbps, co w dobie modem≤w X2 i k56flex nie powinno byµ trudne do zrealizowania.

Kodowanie


Wszystkie standardy MPEG audio u┐ywaj▒ tego samego schematu kodowania. Mo┐emy go okre╢liµ jako "maskowanie szum≤w". Encoder - urz▒dzenie lub program kompresuj▒cy - analizuje widmo sygna│u i nastΩpnie dostosowuje go do modelu psychoakustycznego (czyli tego jak cz│owiek postrzega d╝wiΩki) poprzez oszacowanie dopuszczalnego, nies│yszalnego poziomu szum≤w. Encoder standardu Layer-2 dzieli widmo sygna│u (od 20 Hz do 20 KHz) na 32 podzakresy.

W ka┐dym podzakresie zawarta jest czΩ╢µ analizowanego d╝wiΩku. Przyk│adowo, w podzakresie 8 obecny jest ton o czΩstotliwo╢ci 6500 Hz i poziomie 60 dB. Obliczany jest w≤wczas efekt maskuj▒cy ten d╝wiΩk - okazuje siΩ, ┐e w obrΩbie tego podzakresu maskowane s▒ d╝wiΩki o poziomie ni┐szym od 35 dB.

Dopuszczalny stosunek sygna│/szum wynosi zatem 60 - 35 = 25 dB. To odpowiada rozdzielczo╢ci 4 bit≤w. Dodatkowo maskowanie wystΩpuje r≤wnie┐ w podzakresach 9-13 oraz 5-7. Maleje ono wraz z odleg│o╢ci▒ od zakresu 8. W rzeczywisto╢ci d╝wiΩki wystΩpuj▒ we wszystkich podzakresach i efekt maskowania sumuje siΩ.

Dodatkowo encoder wykorzystuje zmienn▒ czu│o╢µ ucha ludzkiego dla r≤┐nych czΩstotliwo╢ci. Ucho jest mniej czu│e na wysokie i niskie d╝wiΩki, szczyt czu│o╢ci le┐y w okolicach 2-4 kHz. W standardzie MPEG Layer-2 ka┐dy podzakres ma szeroko╢µ 750 Hz (dla czΩstotliwo╢ci pr≤bkowania 48 kHz), ale lepiej jest, gdy podzakres≤w jest wiΩcej oraz s▒ one wΩ┐sze dla niskich czΩstotliwo╢ci i szersze dla wysokich. Layer-3 (MP3) ma 18 razy wiΩksz▒ rozdzielczo╢µ i dodatkowo wykorzystuje efekt maskowania przed i po wyst▒pieniu silnego d╝wiΩku. Wyt│umaczyµ go mo┐na ograniczonymi mo┐liwo╢ciami m≤zgu (szybko╢µ transportu bod╝ca nerwowego).

Inn▒ w│asno╢ci▒, tym razem sygna│u stereo, wykorzystywan▒ podczas kompresji jest wystΩpowanie podobie±stwa pomiΩdzy kana│ami. U┐ywany jest w≤wczas tryb joint-stereo, kt≤ry powtarzaj▒ce siΩ w obu kana│ach d╝wiΩki zapisuje jako jeden. Encoder kompresuje dany wycinek sygna│u tak d│ugo a┐ osi▒gnie on po┐▒dan▒ dok│adno╢µ. W standardach Layer-2 i Layer-3 encoder prowadzi obliczenia na odcinkach trwaj▒cych 24 ms. Czasami mo┐e to stanowiµ problem, np. dla sygna│u, w kt≤rym r≤┐nica pomiΩdzy d╝wiΩkiem bardzo silnym i s│abym wynosi ponad 24 ms, (np. wystrza│ lub krzyk). Gdy encoder wykryje powy┐sz▒ sytuacjΩ, Layer-3 radzi sobie z tym poprzez analizΩ kr≤tszego odcinka (4 ms).

Zastosowania


Technologia MPEG, a zw│aszcza Layer-3, mo┐e mieµ bardzo wiele zastosowa±. Pierwsze z nich to transmisja d╝wiΩku poprzez │▒cza ISDN (Integrated Services Digital Network) oferuje po│▒czenia cyfrowe za pomoc▒ sieci telefonicznej typu dial-up z podstawow▒ transmisj▒ 64 kbps na ka┐dy kana│. U┐ywaj▒c niskonak│adowych technologii Layer-3 i ISDN mo┐emy transmitowaµ d╝wiΩk o jako╢ciach wymaganych przez studia radiowe czy telewizyjne. Pozwala to oszczΩdziµ pieni▒dze, kt≤re musieliby╢my wydaµ na │▒cze dzier┐awione. Przyk│adowe zastosowania to transmitowanie wywiad≤w "przez telefon" o jako╢µ CD, "wirtualne studio", czyli mo┐liwo╢µ wsp≤│pracy muzyk≤w, kt≤rzy aby wzi▒µ udzia│ w sesji nagraniowej, nie musz▒ wychodziµ wcale ze swoich dom≤w (w 1992 r. podczas festiwalu w Bergeb, Arne Nordheim przy wykonaniu jednego z utwor≤w wykorzysta│ organy ko╢cio│a w Trondhaim, kt≤re zagra│y razem z orkiestr▒; d╝wiΩk by│ transmitowany przez ISDN i kodowany w MP3).

Audio na ┐▒danie


Internet jest og≤lno╢wiatow▒ sieci▒ po│▒czonych razem r≤┐norakich system≤w i komputer≤w. Profesjonali╢ci i ci, kt≤rych na to staµ, korzystaj▒ z │▒czy ISDN 2 MB/s lub ATM 2 GB/s. Ale wiΩkszo╢µ internaut≤w z trudem "wyci▒ga" 56,6 kbps. Dlatego z punktu widzenia u┐ytkownika domowego wielko╢µ plik≤w, kt≤re znajduj▒ siΩ w sieci jest bardzo wa┐na.

Dla przyk│adu 3-minutowy utw≤r z CD stereo (31,7 MB) ╢ci▒ga siΩ minimum 2 godziny. MPEG Layer-3 zmienia tΩ sytuacjΩ diametralnie i nie jest do tego potrzebny dodatkowy sprzΩt. Wystarczy tylko program odtwarzaj▒cy (np. WinAMP). Co wa┐niejsze tego typu pliki mog▒ byµ odtwarzane w czasie rzeczywistym. Stwarza to ogromne mo┐liwo╢ci dla stacji radiowych czy firm fonograficznych, kt≤re mog▒ oferowaµ us│ugi typu Music-on-Demand (europejski program MODE).

12 na jednym CD-ROM-ie


Tradycyjny kompakt CD mo┐e zmie╢ciµ najwy┐ej ok. 74 minut muzyki i nawet DVD, kt≤re co prawda ma wiΩksz▒ pojemno╢µ, nie zmieni postaci rzeczy, ┐e 74 minuty bΩd▒ zajmowaµ ok. 650 MB. Co innego gdy p│ytΩ nagramy w formacie MP3, wtedy na jednej p│ycie CD-ROM, bΩdziemy mogli zmie╢ciµ prawie 10 p│yt CD Audio, czyli ok. 700 minut muzyki!

Jedyna wada takiego no╢nika to potrzeba komputera do jego odtworzenia. Je┐eli za╢ chodzi o zastosowania to niech jako przyk│ad pos│u┐y jednop│ytowa encyklopedia "Discovery 97" koncernu wydawniczego Bertelsmann, kt≤ra omawia 100 000 hase│ ilustruj▒c je 2400 zdjΩciami, 30 minutami film≤w i 150 minutami d╝wiΩku zapisanego w formacie MP3.

Layer-3 zamkniΩte w krzemie


PamiΩci typu RAM czy flash ROM staj▒ siΩ od pewnego czasu coraz bardziej popularne, poniewa┐ ich ceny znacznie spad│y, a pojemno╢ci wzros│y. Pomimo tego ich koszt jest wci▒┐ wiΩkszy ni┐ inne rodzaje no╢nik≤w. Jednak znajduj▒ one zastosowanie w urz▒dzeniach do zapowiadania kolejnych przystank≤w w autobusach i metrze. Do tej pory g│os wydobywaj▒cy siΩ z g│o╢nika by│ mocno "telefoniczny", po zastosowaniu MP3 informacje mog▒ byµ d│u┐sze, a ich jako╢µ jest bardzo wysoka.

Obecnie PC-Cards z pamiΩci▒ flash ROM oferuj▒ pojemno╢ci rzΩdu 100 MB i wiΩcej. Te zalety wykorzysta│ Simens w swojej audio chip card, czyli karcie pamiΩci d╝wiΩku nazwanej ROS chip (Record-on-Silicon). ROS chip z zapisanym na nim d╝wiΩkiem MP3 mo┐e w przysz│o╢ci wyprzeµ napΩdy typu DAT, nie m≤wi▒c ju┐ o tradycyjnych kasetach magnetofonowych.

Na jΩzykach


MPEG-2 ma jeszcze jedn▒ badzo interesuj▒c▒ w│a╢ciwo╢µ, mianowicie mo┐e kodowaµ informacje o d╝wiΩku przestrzennym surround roz│o┐onym na piΩµ niezale┐nych kana│≤w (lewy, centralny, prawy, lewy surraund, prawy surraund) i 1 kana│ subwoofera (niskich czΩstotliwo╢ci).

Ale na tym nie koniec, te w│a╢ciwo╢ci mo┐na wykorzystaµ do zapisania 7 niezale┐nych wersji jΩzykowych, np. tej samej audycji!

MPEG


MPEG, czyli Moving Picture Experts Group to dzia│aj▒ca pod auspicjami ISO (International Standards Organization) i IEC (International Electro-Technical) grupa programist≤w pracuj▒cych od 1991 nad standardami kodowania obrazu i d╝wiΩku dla potrzeb medi≤w elektronicznych. Do tej pory powsta│y 4 standardy MPEG.
  • MPEG-1 - Kodowanie ruchomych obraz≤w i d╝wiΩku towarzysz▒cego przy szybko╢ci przesy│ania ponad 1,5Mbit/s
  • MPEG-2 - Powszechne kodowanie ruchomych obraz≤w i towarzysz▒cej informacji d╝wiΩkowej
  • MPEG-3 - pierwotnie planowany dla HDTV, p≤╝niej zosta│ po│▒czony z MPEG2
  • MPEG-4 - Kodowanie obiekt≤w audiowizualnych
Layer-1,2,3 to schematy opisuj▒ce kodowanie d╝wiΩku w MPEG-1 i MPEG-2. Wszystkie warstwy bazuj▒ na tym samym schemacie kodowania, jedyn▒ r≤┐nic▒ s▒ mo┐liwe do uzyskania stopnie kompresji, a co za tym idzie prΩdko╢µ transmisji.
  • 1:4 Layer-1 transmisja 384 kbps dla sygna│u stereo
  • 1:6 ...1:8 Layer-2 transmisja 256...192 kbps dla sygna│u stereo
  • 1:10 ...1:12 Layer-3 transmisja 128..112 kbps dla sygna│u stereo

Jak dzia│aj▒ MPEG i MP3?


MPEG audio wykorzystuje u│omno╢µ zmys│u s│uchu ludzkiego. Bazuje na usuwaniu s│abszych d╝wiΩk≤w, kt≤re nie docieraj▒ do m≤zgu cz│owieka. Na rysunku pokazany jest efekt maskowania, czarn▒ lini▒ zaznaczono pr≤g s│yszalno╢ci - rys.1. W standardzie MP3 wykorzystywany jest r≤wnie┐ inny efekt. Poniewa┐ m≤zg cz│owieka posiada ograniczony czas reakcji, s│absze d╝wiΩki s▒ nies│yszalne na kr≤tko przed oraz po wyst▒pieniu silnego sygna│u. Proces enkodowania plik≤w MPEG jest bardzo z│o┐ony obliczeniowo i wymaga szybkiego procesora. Pocz▒tkowo sygna│ jest filtrowany i jego widmo jest dzielone na ma│e podzakresy. NastΩpnie komputer por≤wnuje zawarto╢µ poszczeg≤lnych podzakres≤w i na podstawie w│asnych algorytm≤w usuwa te czΩ╢ci, kt≤rych umys│ ludzki i tak nie odbierze (rys. 2).

Sygna│y A i B znajduj▒ siΩ poni┐ej "progu s│yszalno╢ci", dlatego wiΩc enkoder mo┐e usun▒µ sygna│ znajduj▒cy siΩ w trzecim podzakresie. Sygna│ z lewej strony nie jest ca│kowicie zamaskowany, ale mo┐na podnie╢µ dopuszczalny poziom szumu, poniewa┐ bΩdzie on nies│yszalny, tzn. zapisaµ mniejsz▒ liczb▒ bit≤w (rys. 3).

Adresy stron o MP3



www.mpeg.org
www.iis.fhg.de/departs/amm/layer3/index.html
www.iso.ch
www.polbox
www.hyperreal.art.pl/html/mp3.html
phys.amu.edu.pl/~hornaku/mp3.html
free.polbox.pl/v/victorio/
mp3.mtl.pl/

Jako╢µ d╝wiΩku a stopie± kompresji


Jako╢µ d╝wiΩku pasmotrybtransmisjastopie± redukcji
Telefon gsm 2,5 kHz mono 8 kbps 96:1
Lepiej ni┐ CB radio 4,5 kHz mono 16 kbps 48:1
Lepiej ni┐ AM radio 7,5 kHz mono 32 kbps 24:1
Podobna do radia FM 11 kHz stereo 56...64 kbps 26...24:1
Bliska CD 15 kHz stereo 112...96 kbps 14...16:1
CD >15 kHz stereo 128 kbps 12:1

(c) Copyright LUPUS