|
Kompresja plik≤w multimedialnych |
|||||||||||||||||||||||||||||||||||
Andrzej Paj▒k | |||||||||||||||||||||||||||||||||||
N iegdy╢ drogie i czasoch│onne techniki cyfrowej obr≤bki danych audio i wideo dzi╢ praktycznie s▒ dostΩpne dla og≤│u. Wystarczy mieµ szybki komputer i odpowiednie oprogramowanie. Jedn▒ z takich technik jest kompresja d╝wiΩku. Kompresja plik≤w multimedialnych jest kluczem do wprowadzenia d╝wiΩku i obrazu o najwy┐szej jako╢ci do ╢wiata komputer≤w. Najpopularniejszym i og≤lnie przyjΩtym formatem kodowania danych medialnych jest standard MPEG. Po co kompresja? Jedna sekunda sygna│u audio stereo pr≤bkowanego z rozdzielczo╢ci▒ 16-bit≤w przy czΩstotliwo╢ci 44,1 kHz (jako╢µ CD) zajmuje na dysku 1400 kbit≤w, czyli 1 minuta to w przybli┐eniu 10,5 MB. U┐ycie kompresji MPEG mo┐e zmniejszyµ tΩ wielko╢µ o 12 razy (1 min > 1 MB), bez zauwa┐alnej straty jako╢ci. Mo┐liwa jest nawet 24-krotna redukcja wielko╢ci; wtedy jako╢µ co prawda spada, ale i tak jest lepsza ni┐ pr≤by nagrania tego samego pliku z mniejsz▒ rozdzielczo╢ci▒ lub czΩstotliwo╢ci▒ pr≤bkowania. Tak du┐y stopie± kompresji jest mo┐liwy dziΩki algorytmowi, jaki wykorzytsuje MPEG. Polega on na wykorzystaniu niedoskona│o╢ci ludzkiego zmys│u s│uchu, a konkretnie usuniΩciu tych czΩ╢ci sygna│u d╝wiΩkowego, kt≤rych nie s│yszymy. MP3 Przegl▒daj▒c strony w Internecie mo┐emy od pewnego czasu natkn▒µ siΩ na pliki z rozszerzeniem MP3. Jest to jeden z rodzaj≤w skompresowanych plik≤w d╝wiΩkowych zgodnie ze standardem MPEG 2 Layer-3 (patrz ramka). Jest to obecnie najwydajniejszy spos≤b kompresji plik≤w d╝wiΩkowych, kt≤rego podstawow▒ zalet▒ jest redukcja wielko╢ci pliku. Co wa┐niejsze, zmniejszenie prΩdko╢ci przesy│ania danych pozwala na przesy│anie d╝wiΩku wsp≤│czesnymi ╢rodkami komunikacji, w tym Internetem. Przyk│adowo d╝wiΩk stereo, o jako╢ci radia FM, wymaga do przesy│ania prΩdko╢ci tylko 56-64 kbps, co w dobie modem≤w X2 i k56flex nie powinno byµ trudne do zrealizowania. Kodowanie Wszystkie standardy MPEG audio u┐ywaj▒ tego samego schematu kodowania. Mo┐emy go okre╢liµ jako "maskowanie szum≤w". Encoder - urz▒dzenie lub program kompresuj▒cy - analizuje widmo sygna│u i nastΩpnie dostosowuje go do modelu psychoakustycznego (czyli tego jak cz│owiek postrzega d╝wiΩki) poprzez oszacowanie dopuszczalnego, nies│yszalnego poziomu szum≤w. Encoder standardu Layer-2 dzieli widmo sygna│u (od 20 Hz do 20 KHz) na 32 podzakresy. W ka┐dym podzakresie zawarta jest czΩ╢µ analizowanego d╝wiΩku. Przyk│adowo, w podzakresie 8 obecny jest ton o czΩstotliwo╢ci 6500 Hz i poziomie 60 dB. Obliczany jest w≤wczas efekt maskuj▒cy ten d╝wiΩk - okazuje siΩ, ┐e w obrΩbie tego podzakresu maskowane s▒ d╝wiΩki o poziomie ni┐szym od 35 dB. Dopuszczalny stosunek sygna│/szum wynosi zatem 60 - 35 = 25 dB. To odpowiada rozdzielczo╢ci 4 bit≤w. Dodatkowo maskowanie wystΩpuje r≤wnie┐ w podzakresach 9-13 oraz 5-7. Maleje ono wraz z odleg│o╢ci▒ od zakresu 8. W rzeczywisto╢ci d╝wiΩki wystΩpuj▒ we wszystkich podzakresach i efekt maskowania sumuje siΩ. Dodatkowo encoder wykorzystuje zmienn▒ czu│o╢µ ucha ludzkiego dla r≤┐nych czΩstotliwo╢ci. Ucho jest mniej czu│e na wysokie i niskie d╝wiΩki, szczyt czu│o╢ci le┐y w okolicach 2-4 kHz. W standardzie MPEG Layer-2 ka┐dy podzakres ma szeroko╢µ 750 Hz (dla czΩstotliwo╢ci pr≤bkowania 48 kHz), ale lepiej jest, gdy podzakres≤w jest wiΩcej oraz s▒ one wΩ┐sze dla niskich czΩstotliwo╢ci i szersze dla wysokich. Layer-3 (MP3) ma 18 razy wiΩksz▒ rozdzielczo╢µ i dodatkowo wykorzystuje efekt maskowania przed i po wyst▒pieniu silnego d╝wiΩku. Wyt│umaczyµ go mo┐na ograniczonymi mo┐liwo╢ciami m≤zgu (szybko╢µ transportu bod╝ca nerwowego). Inn▒ w│asno╢ci▒, tym razem sygna│u stereo, wykorzystywan▒ podczas kompresji jest wystΩpowanie podobie±stwa pomiΩdzy kana│ami. U┐ywany jest w≤wczas tryb joint-stereo, kt≤ry powtarzaj▒ce siΩ w obu kana│ach d╝wiΩki zapisuje jako jeden. Encoder kompresuje dany wycinek sygna│u tak d│ugo a┐ osi▒gnie on po┐▒dan▒ dok│adno╢µ. W standardach Layer-2 i Layer-3 encoder prowadzi obliczenia na odcinkach trwaj▒cych 24 ms. Czasami mo┐e to stanowiµ problem, np. dla sygna│u, w kt≤rym r≤┐nica pomiΩdzy d╝wiΩkiem bardzo silnym i s│abym wynosi ponad 24 ms, (np. wystrza│ lub krzyk). Gdy encoder wykryje powy┐sz▒ sytuacjΩ, Layer-3 radzi sobie z tym poprzez analizΩ kr≤tszego odcinka (4 ms). Zastosowania Technologia MPEG, a zw│aszcza Layer-3, mo┐e mieµ bardzo wiele zastosowa±. Pierwsze z nich to transmisja d╝wiΩku poprzez │▒cza ISDN (Integrated Services Digital Network) oferuje po│▒czenia cyfrowe za pomoc▒ sieci telefonicznej typu dial-up z podstawow▒ transmisj▒ 64 kbps na ka┐dy kana│. U┐ywaj▒c niskonak│adowych technologii Layer-3 i ISDN mo┐emy transmitowaµ d╝wiΩk o jako╢ciach wymaganych przez studia radiowe czy telewizyjne. Pozwala to oszczΩdziµ pieni▒dze, kt≤re musieliby╢my wydaµ na │▒cze dzier┐awione. Przyk│adowe zastosowania to transmitowanie wywiad≤w "przez telefon" o jako╢µ CD, "wirtualne studio", czyli mo┐liwo╢µ wsp≤│pracy muzyk≤w, kt≤rzy aby wzi▒µ udzia│ w sesji nagraniowej, nie musz▒ wychodziµ wcale ze swoich dom≤w (w 1992 r. podczas festiwalu w Bergeb, Arne Nordheim przy wykonaniu jednego z utwor≤w wykorzysta│ organy ko╢cio│a w Trondhaim, kt≤re zagra│y razem z orkiestr▒; d╝wiΩk by│ transmitowany przez ISDN i kodowany w MP3). Audio na ┐▒danie Internet jest og≤lno╢wiatow▒ sieci▒ po│▒czonych razem r≤┐norakich system≤w i komputer≤w. Profesjonali╢ci i ci, kt≤rych na to staµ, korzystaj▒ z │▒czy ISDN 2 MB/s lub ATM 2 GB/s. Ale wiΩkszo╢µ internaut≤w z trudem "wyci▒ga" 56,6 kbps. Dlatego z punktu widzenia u┐ytkownika domowego wielko╢µ plik≤w, kt≤re znajduj▒ siΩ w sieci jest bardzo wa┐na. Dla przyk│adu 3-minutowy utw≤r z CD stereo (31,7 MB) ╢ci▒ga siΩ minimum 2 godziny. MPEG Layer-3 zmienia tΩ sytuacjΩ diametralnie i nie jest do tego potrzebny dodatkowy sprzΩt. Wystarczy tylko program odtwarzaj▒cy (np. WinAMP). Co wa┐niejsze tego typu pliki mog▒ byµ odtwarzane w czasie rzeczywistym. Stwarza to ogromne mo┐liwo╢ci dla stacji radiowych czy firm fonograficznych, kt≤re mog▒ oferowaµ us│ugi typu Music-on-Demand (europejski program MODE). 12 na jednym CD-ROM-ie Tradycyjny kompakt CD mo┐e zmie╢ciµ najwy┐ej ok. 74 minut muzyki i nawet DVD, kt≤re co prawda ma wiΩksz▒ pojemno╢µ, nie zmieni postaci rzeczy, ┐e 74 minuty bΩd▒ zajmowaµ ok. 650 MB. Co innego gdy p│ytΩ nagramy w formacie MP3, wtedy na jednej p│ycie CD-ROM, bΩdziemy mogli zmie╢ciµ prawie 10 p│yt CD Audio, czyli ok. 700 minut muzyki! Jedyna wada takiego no╢nika to potrzeba komputera do jego odtworzenia. Je┐eli za╢ chodzi o zastosowania to niech jako przyk│ad pos│u┐y jednop│ytowa encyklopedia "Discovery 97" koncernu wydawniczego Bertelsmann, kt≤ra omawia 100 000 hase│ ilustruj▒c je 2400 zdjΩciami, 30 minutami film≤w i 150 minutami d╝wiΩku zapisanego w formacie MP3. Layer-3 zamkniΩte w krzemie PamiΩci typu RAM czy flash ROM staj▒ siΩ od pewnego czasu coraz bardziej popularne, poniewa┐ ich ceny znacznie spad│y, a pojemno╢ci wzros│y. Pomimo tego ich koszt jest wci▒┐ wiΩkszy ni┐ inne rodzaje no╢nik≤w. Jednak znajduj▒ one zastosowanie w urz▒dzeniach do zapowiadania kolejnych przystank≤w w autobusach i metrze. Do tej pory g│os wydobywaj▒cy siΩ z g│o╢nika by│ mocno "telefoniczny", po zastosowaniu MP3 informacje mog▒ byµ d│u┐sze, a ich jako╢µ jest bardzo wysoka. Obecnie PC-Cards z pamiΩci▒ flash ROM oferuj▒ pojemno╢ci rzΩdu 100 MB i wiΩcej. Te zalety wykorzysta│ Simens w swojej audio chip card, czyli karcie pamiΩci d╝wiΩku nazwanej ROS chip (Record-on-Silicon). ROS chip z zapisanym na nim d╝wiΩkiem MP3 mo┐e w przysz│o╢ci wyprzeµ napΩdy typu DAT, nie m≤wi▒c ju┐ o tradycyjnych kasetach magnetofonowych. Na jΩzykach MPEG-2 ma jeszcze jedn▒ badzo interesuj▒c▒ w│a╢ciwo╢µ, mianowicie mo┐e kodowaµ informacje o d╝wiΩku przestrzennym surround roz│o┐onym na piΩµ niezale┐nych kana│≤w (lewy, centralny, prawy, lewy surraund, prawy surraund) i 1 kana│ subwoofera (niskich czΩstotliwo╢ci). Ale na tym nie koniec, te w│a╢ciwo╢ci mo┐na wykorzystaµ do zapisania 7 niezale┐nych wersji jΩzykowych, np. tej samej audycji! MPEG MPEG, czyli Moving Picture Experts Group to dzia│aj▒ca pod auspicjami ISO (International Standards Organization) i IEC (International Electro-Technical) grupa programist≤w pracuj▒cych od 1991 nad standardami kodowania obrazu i d╝wiΩku dla potrzeb medi≤w elektronicznych. Do tej pory powsta│y 4 standardy MPEG.
Jak dzia│aj▒ MPEG i MP3? MPEG audio wykorzystuje u│omno╢µ zmys│u s│uchu ludzkiego. Bazuje na usuwaniu s│abszych d╝wiΩk≤w, kt≤re nie docieraj▒ do m≤zgu cz│owieka. Na rysunku pokazany jest efekt maskowania, czarn▒ lini▒ zaznaczono pr≤g s│yszalno╢ci - rys.1. W standardzie MP3 wykorzystywany jest r≤wnie┐ inny efekt. Poniewa┐ m≤zg cz│owieka posiada ograniczony czas reakcji, s│absze d╝wiΩki s▒ nies│yszalne na kr≤tko przed oraz po wyst▒pieniu silnego sygna│u. Proces enkodowania plik≤w MPEG jest bardzo z│o┐ony obliczeniowo i wymaga szybkiego procesora. Pocz▒tkowo sygna│ jest filtrowany i jego widmo jest dzielone na ma│e podzakresy. NastΩpnie komputer por≤wnuje zawarto╢µ poszczeg≤lnych podzakres≤w i na podstawie w│asnych algorytm≤w usuwa te czΩ╢ci, kt≤rych umys│ ludzki i tak nie odbierze (rys. 2). Sygna│y A i B znajduj▒ siΩ poni┐ej "progu s│yszalno╢ci", dlatego wiΩc enkoder mo┐e usun▒µ sygna│ znajduj▒cy siΩ w trzecim podzakresie. Sygna│ z lewej strony nie jest ca│kowicie zamaskowany, ale mo┐na podnie╢µ dopuszczalny poziom szumu, poniewa┐ bΩdzie on nies│yszalny, tzn. zapisaµ mniejsz▒ liczb▒ bit≤w (rys. 3). Adresy stron o MP3 www.mpeg.org www.iis.fhg.de/departs/amm/layer3/index.html www.iso.ch www.polbox www.hyperreal.art.pl/html/mp3.html phys.amu.edu.pl/~hornaku/mp3.html free.polbox.pl/v/victorio/ mp3.mtl.pl/ Jako╢µ d╝wiΩku a stopie± kompresji
(c) Copyright LUPUS |