home *** CD-ROM | disk | FTP | other *** search
/ ftp.pasteur.org/FAQ/ / ftp-pasteur-org-FAQ.zip / FAQ / mpeg-faq / part1 < prev    next >
Encoding:
Internet Message Format  |  1996-11-10  |  60.7 KB

  1. Path: senator-bedfellow.mit.edu!bloom-beacon.mit.edu!news.mathworks.com!fu-berlin.de!cs.tu-berlin.de!phade
  2. From: phade@cs.tu-berlin.de (Frank Gadegast)
  3. Newsgroups: alt.answers,comp.answers,news.answers
  4. Subject: MPEG-FAQ: multimedia compression [1/9]
  5. Followup-To: alt.binaries.multimedia
  6. Date: 9 Nov 1996 09:32:20 GMT
  7. Organization: Technical University of Berlin, Germany
  8. Lines: 1304
  9. Approved: news-answers-request@MIT.EDU
  10. Expires: 31 Dec 1996 12:00:00 GMT
  11. Message-ID: <561j34$otq$1@news.cs.tu-berlin.de>
  12. Reply-To: mpegfaq@powerweb.de
  13. NNTP-Posting-Host: 130.149.22.20
  14. Mime-Version: 1.0
  15. Content-Type: text/plain; charset=iso-8859-1
  16. Content-Transfer-Encoding: 8bit
  17. Summary: This is the summary about the ISO video and audioformats MPEG 1, 2 and 4
  18. Keywords: MPEG, FAQ, Compression
  19. Xref: senator-bedfellow.mit.edu alt.answers:21694 comp.answers:22304 news.answers:86419
  20.  
  21. Archive-name: mpeg-faq/part1
  22. Last-modified: 1996/06/02
  23. Version: v 4.1 96/06/02
  24. Posting-Frequency: bimonthly
  25.  
  26. ===========================================================================
  27.  
  28. ~Subject: SECTION 0. - INTRO
  29.  
  30.         ====================================================
  31.         THE MPEG-FAQ            [Version 4.1 - 1. June 1996]
  32.         ====================================================
  33.         PHADE Software
  34.         Inh. Dipl-Inform. Frank Gadegast
  35.         Leibnizstr. 30
  36.         10625 Berlin, GERMANY
  37.  
  38.         Fon/Fax   ++ 49 30 3128103
  39.         E-mail    phade@powerweb.de
  40.         Web site  http://www.powerweb.de/mpeg
  41.  
  42.  
  43. It's the eights publication of this file. Lots of information has been
  44. changed (which has surely brought errors with it, see Murphy's Law).
  45.  
  46. This eights compilation is very different to the previous one, Version 4.0.
  47.  
  48. First:    The location of this file is:
  49.  
  50.           Text-Version : URL: ftp://ftp.powerweb.de/mpeg/faq/mpegfa41.zip
  51.                               [194.77.15.46]
  52.           HTML-Version : URL: http://www.powerweb.de/mpeg/faq/
  53.  
  54.           My MPEG-related software and my DOS-ports of several
  55.           programs can be found there too.
  56.  
  57. Second:   "The Internet MPEG Audio Archive" is there ! Our brilliant
  58.           collecting of everything that belongs to MPEG audio. For only
  59.           DM 49,- ! Get it ! More than 400 MB of songs, documentation
  60.           and utilities ! Read below, about how to Order !
  61.  
  62. Third:    "The Internet MPEG CD-Rom" is still available ! The uniq
  63.           collecting of everything that belongs to MPEG. For only
  64.           DM 49,90 ! Get it ! More than 600 MB of movies, songs,
  65.           documentation and utilities ! Read below, about how to Order !
  66.  
  67.           Another CD-Rom containing material for MPEG-2 is about to get
  68.           released ! It will be called the "MPEG-2 Movie Toolbox".
  69.  
  70. Fourth:   This FAQ has and the famous MPEG Archive has a complete new
  71.           home now on the PowerWeb site ! The newest FAQ and other
  72.           MPEG-related information and utilities for all platforms
  73.           can always be loaded using WWW from:
  74.  
  75.                  URL=http://www.powerweb.de/mpeg
  76.  
  77.           And surely, there are more interesting things to find ;o)
  78.  
  79.  
  80. I add my comments in brackets [], lines (---- or ====) seperate the
  81. chapters and questions.
  82.  
  83. Please try and find out more information yourself. I had enough to do by
  84. getting and preparing this information. And only bother me with file-
  85. request if its not possible for you to get it somewhere else !!!
  86.  
  87. If you want to contribute to this FAQ in any way, please email directly too
  88. (probably by replying to this posting):
  89.  
  90.   mpegfaq@powerweb.de
  91.  
  92. If you want to contribute to the MPEG Archive, please upload via ftp to
  93. ftp://ftp.powerweb.de/incoming/mpeg and notity mpeg@powerweb.de via
  94. e-mail about your contribution.
  95.  
  96. Other usefull information related to MPEG can be e-mailed to
  97.  
  98.   mpeg@powerweb.de
  99.  
  100. Or send any additional information via fax or e-mail.
  101.  
  102. Enjoy MPEG, KeyJ "MPEG" Phade (Frank Gadegast)
  103.  
  104.  
  105. -------------------------------------------------------------------------------
  106.  
  107. ~Subject: Disclaimer
  108.  
  109.             I HAVE NOTHING TO DO WITH THE NAMED COMPANIES, NO BUSINESS,
  110.             IT'S JUST MY PERSONAL INTERESTED. COMPANIES ARE NAMED,
  111.             BECAUSE THEY ARE THE FIRST, BRINGING REAL MULTIMEDIA TO THE
  112.             WORLD. SURE I MAKE ADVERTS FOR THEM WITH THIS FAQ, BUT HOPE-
  113.             FULLY YOU, AS A READER OF THIS FAQ, WILL FORCE THEM TO PRODUCE
  114.             MORE AND BETTER PRODUCTS.
  115.  
  116.             MOST ADDITIONAL INFORMATION IS WRITTEN AS PERSONAL COMMENT,
  117.             AND SHOULD NOT BE TAKEN AS PROOFEN FACTS. INFORMATION IS
  118.             PRESENTED "AS IS", COULD BE OUT OF DATE AND CANNOT BE
  119.             GARANTIED TO BE THE TRUTH. THIS INFOMATION COMES WITHOUT
  120.             WARRANTY OF ANY KIND, INCLUDING WITHOUT LIMITATION OF
  121.             WARRANTIES OF MERCHANTABILITY, FITNESS FOR PARTICULAR
  122.             PURPOSE AND NON-INFRINGEMENT.
  123.  
  124.             UNDER NO CIRCUMSTANCES AND UNDER NO LEGAL THEORY, TORT, CONTRACT,
  125.             OR OTHERWISE, SHALL THE AUTHOR BE LIABLE TO YOU OR ANY OTHER
  126.             PERSON FOR ANY INDIRECT, SPECIAL, INCIDENTAL, OR CONSEQUENTIAL
  127.             DAMAGES OF ANY CHARACTER INCLUDING, WITHOUT LIMITATION, DAMAGES
  128.             FOR LOSS OF GOODWILL, WORK STOPPAGE, COMPUTER FAILURE OR
  129.             MALFUNCTION, OR ANY AND ALL OTHER COMMERCIAL DAMAGES OR LOSSES.
  130.  
  131.             Frank Gadegast
  132.  
  133. -------------------------------------------------------------------------------
  134.  
  135. ~Subject: Copyright information
  136.  
  137.             THIS COMPILATION OF INFORMATION IS COPYRIGHTED BY THE AUTHOR
  138.             AND MAINTAINER, CURRENTLY FRANK GADEGAST. ANY NON-COMMERCIAL
  139.             USE OF IT, OR PARTS OF IT IS ALLOWED, UNTIL THE USE OF IT IS
  140.             REPORTED TO THE AUTHOR AND THE COMPILATION IS KEPT UNCHANGED.
  141.             ADDITONAL, IF PARTS OF IT ARE USED, INFORMATION HAS TO BE ADDED
  142.             WITH THAT PART, WHO THE AUTHOR OF THAT PARTS IS, THAT IT BELONGS
  143.             TO THE COMPLETE COMPILATION AND WHERE TO FIND THE COMPLETE
  144.             COMPILATION.
  145.  
  146.             COMMERCIAL USE CAN BE GRANTED IN SPECIAL CIRCUMSTANCES, FEEL
  147.             FREE TO ASK AND SEND A DESCRIPTION OF THE INTENDED USE, TO
  148.             RECEIVE A CERTIFICATION.
  149.  
  150.             ANY NON-REPORTED OR NON-CERTIFIED COMMERCIAL USE OF THIS
  151.             COMPILATION IS A VIOLATION OF GERMAN COPYRIGHT LAW !
  152.  
  153.             ANY RE-PUBLICATION OF THE INFORMATION IN THIS COMPILATION SHOULD
  154.             BE REPORTED TO THE AUTHOR AND SHOULD BE QUOTED IN THE NEW
  155.             PUBLICATION.
  156.  
  157.             ANY RE-DISTRIBUTION OF THE COMPLETE FILE ON NON-COMMERCIAL
  158.             ARCHIVES, LIKE FTP- OR FAQ-MIRRORS IS ALLOWED.
  159.  
  160. -------------------------------------------------------------------------------
  161.  
  162. ~Subject: Digest format
  163.  
  164. It should be possible to read this FAQ with a threaded newsreader or emacs
  165. in FAQ-mode to enable you, to jump from one question to another, because
  166. this FAQ is organized as a digest.
  167.  
  168. You can move to the next question with the digest commands in gnus, rn or
  169. other newsreaders, or with a regex search for ^~Subject or ^--.
  170.  
  171. -------------------------------------------------------------------------------
  172.  
  173. ~Subject: Recommendations
  174.  
  175. Well, to stop some of the most enoying question, from those that do not read
  176. this FAQ at all, I recommend the following player/decoder and encoder.
  177. Search the FAQ for these words and download them BEFORE e-mailing to me !
  178.  
  179. DOS:     VMPEG, MAPLAYPC and CMPEG, ENC11BIN
  180. Windows: VMPEG, SoftPeg, COOL 1.5.3 and Maplay 1.2 for Win32
  181. Unix:    XMPLAY and VCR
  182.  
  183. CD-I's and Video-CDs are currently only supported by VMPEG and SoftPeg !
  184.  
  185. -------------------------------------------------------------------------------
  186.  
  187. ~Subject: What questions are getting answered in this FAQ ?
  188.  
  189. SECTION 0. - INTRO
  190.     Disclaimer
  191.     Copyright information
  192.     Digest format
  193.     What questions are getting answered in this FAQ ?
  194. SECTION 1. - WHAT IS MPEG-VIDEO/VIDEO
  195.     What is MPEG ?
  196.     What is MPEG-Audio then ?
  197.     What is the Audio Layer 3 then ?
  198.     What is MPEG-1+ ?
  199.     What is MPEG-2 ?
  200.     What happened at the MPEG - NY meeting ?
  201.     What's about Video-CD and CD-I ?
  202. SECTION 2. - PROFESSIONAL SOFTWARE
  203.     SUBSECTION - DOS
  204.     MPEG Encoder by Xing
  205. SUBSECTION - WINDOWS
  206.     MPEG ARCADETM
  207.     XingSound
  208.     XingCD
  209. SUBSECTION - UNIX
  210.     Xing Distributed Media Architecture
  211.     NVR Research Kit
  212.     Demo of NVR Digital Media Development Kit
  213.     How will I get the NVR-Software ?
  214. SECTION 3. - FREE AVAILABLE SOFTWARE
  215. SUBSECTION - DOS
  216.     layr_100
  217.     mpeg2ppm
  218.     vmpeg
  219.     cmpeg
  220.     dmpeg
  221.     secmpeg
  222.     mpegstat
  223.     enc11dos
  224.     pvrg MPEG
  225. SUBSECTION - Windows
  226.     XingIt
  227.     mpgaudio
  228. SUBSECTION - WINDOWS-NT
  229.     mpeg2ply
  230.     mpegplay
  231. SUBSECTION - OS/2
  232.     mp
  233. SUBSECTION - X-WINDOWS and UNIX
  234.     Berkeley's MPEG Tools
  235.     MPEG-1 Video Software Encoder
  236.     MPEG Video Software Decoder
  237.     MPEG Video Software Analyzer
  238.     MPEG Blocks Analyzer
  239.     MPEG Video Software Statistics Gatherer
  240.     xmg
  241.     mpegstat
  242.     mplex
  243.     xmplay
  244.     xplayer
  245.     xmpeg.tk
  246.     mpeg2encode / mpeg2decode
  247.     mpegaudio
  248.     maplay
  249.     Scanning MPEG's ...
  250.     MPEG decoder...
  251.     MPEGTool
  252.     What is "SECMPEG" ?
  253.     PVRG-MPEG Codec
  254.     wdgt
  255. SUBSECTION - VMS
  256.     vms MPEG
  257. SUBSECTION - MacIntosh
  258.     Sparcle
  259.     Qt2MPEG
  260.     Audio on Macintosh ?!
  261. SUBSECTION - Atari
  262. SUBSECTION - Amiga
  263.     MPEG2DCTV
  264. SUBSECTION - NeXT
  265.     MPEG_Play.app
  266.     mpegnext
  267. SUBSECTION - SGI
  268. SECTION 4. - MPEG-RELATED HARDWARE
  269.     MPEG audio Layer-3
  270.     Video-Maker
  271.     Some MPEG chips
  272.     Optibase
  273.     ReelMagic
  274.     Cinerama
  275.     XingIt!-card
  276.     MPEG-decompression hardware list
  277.     Amiga CD32
  278. SECTION 5. - MAILBOX-ACCESS
  279.     Genoabox
  280.     Xing Technologies BBS and fax
  281. SECTION 6. - FTP-ACCESS
  282.     FTP-ACCESS - Overview
  283.     MPEG-2 validation bitstreams
  284.     Audio streams and utils
  285.     Accessing Aminet
  286.     Where will I find test-material for MPEG-encoders ?
  287. SECTION 7. - WWW-ACCESS
  288.     Where is the WWW-home of this FAQ ?
  289.     An Interactive Explanation on the Web ?
  290.     Where is the WWW-demo of "The Internet MPEG CD-Rom" ?
  291.     Which archive is mostly related to MPEG-Audio ?
  292.     What's with Bryan Woodworth ftp-area ?
  293.     Rock'n'Roll stored in MPEG on the Web ?
  294.     Where can I find space movies coded in MPEG ?
  295.     Movies on Web-site
  296.     Where can I find fractal movies coded in MPEG ?
  297.     Is qt2mpeg on the Web ?
  298.     What are other good URL's ?
  299. SECTION 8. - MAIL ORDER
  300.     The Internet MPEG CD-Rom
  301.     Conversion, WWW and CD-Rom production service
  302.     How can I order information from C-CUBE ?
  303. SECTION 9. - ADDITIONAL INFORMATION
  304.     What are the MPEG standard documents ?
  305.     So, the Xing decoder is cheating, right ?
  306.     What is Aware Inc. doing ?
  307.     Will MPEG be included in QuickTime ?
  308.     What's about MPEG-2 software ?
  309.     What about good MPEG Hardware encoders (Optivision) ?
  310.     What's about CD-I ?
  311.     What is the PCMotion Player ?
  312.     What is the MPEG-2 ISO number ?
  313.     Some papers about MPEG-audio
  314.     Where can I find more documents about what Berkeley is doing ?
  315.     Is there a book about MPEG ?
  316.     Who are CD-I producers ?
  317.     Where can I get VideoCD and CD-I coding ?
  318.     Where can I do MPEG encoding ?
  319.     What the problem with all these file extensions for MPEG-files ?
  320.     How can I do RTP encapsulation of MPEG1/MPEG2 ?
  321.     Wo kann ich den MPEG-standard bestellen ?
  322. SECTION 10. - WHERE TO FIND MORE INFOS
  323.     What newsgroups discuss MPEG ?
  324.     How can 'archie' help me ?
  325. SECTION 11. - QUESTIONS
  326.  
  327. ===========================================================================
  328.  
  329. ~Subject: SECTION 1. - WHAT IS MPEG-VIDEO/VIDEO
  330.  
  331. -------------------------------------------------------------------------------
  332.  
  333. ~Subject: What is MPEG ?
  334.  
  335. From comp.compression Mon Oct 19 15:38:38 1992
  336. Sender: news@chorus.chorus.fr
  337. Author: Mark Adler <madler@alumni.caltech.edu>
  338.  
  339. [71] Introduction to MPEG (long)
  340.        What is MPEG?
  341.        Does it have anything to do with JPEG?
  342.        Then what's JBIG and MHEG?
  343.        What has MPEG accomplished?
  344.        So how does MPEG I work?
  345.        What about the audio compression?
  346.        So how much does it compress?
  347.        What's phase II?
  348.        When will all this be finished?
  349.        How do I join MPEG?
  350.        How do I get the documents, like the MPEG I standard?
  351.  
  352. [ There is no newer version of this part so far. Whoever wants to update ]
  353. [ this description, should do the job and send it over.                  ]
  354.  
  355. Written by Mark Adler <madler@alumni.caltech.edu>.
  356.  
  357. Q. What is MPEG?
  358. A. MPEG is a group of people that meet under ISO (the International
  359.    Standards Organization) to generate standards for digital video
  360.    (sequences of images in time) and audio compression.  In particular,
  361.    they define a compressed bit stream, which implicitly defines a
  362.    decompressor.  However, the compression algorithms are up to the
  363.    individual manufacturers, and that is where proprietary advantage
  364.    is obtained within the scope of a publicly available international
  365.    standard.  MPEG meets roughly four times a year for roughly a week
  366.    each time.  In between meetings, a great deal of work is done by
  367.    the members, so it doesn't all happen at the meetings.  The work
  368.    is organized and planned at the meetings.
  369.  
  370. Q. So what does MPEG stand for?
  371. A. Moving Pictures Experts Group.
  372.  
  373. Q. Does it have anything to do with JPEG?
  374. A. Well, it sounds the same, and they are part of the same subcommittee
  375.    of ISO along with JBIG and MHEG, and they usually meet at the same
  376.    place at the same time.  However, they are different sets of people
  377.    with few or no common individual members, and they have different
  378.    charters and requirements.  JPEG is for still image compression.
  379.  
  380. Q. Then what's JBIG and MHEG?
  381. A. Sorry I mentioned them. Ok, I'll simply say that JBIG is for binary
  382.    image compression (like faxes), and MHEG is for multi-media data
  383.    standards (like integrating stills, video, audio, text, etc.).
  384.    For an introduction to JBIG, see question 74 below.
  385.  
  386. Q. Ok, I'll stick to MPEG.  What has MPEG accomplished?
  387. A. So far (as of January 1996), they have completed the "Standard
  388.    of MPEG phase I, colloquially called MPEG I. This defines
  389.    a bit stream for compressed video and audio optimized to fit into
  390.    a bandwidth (data rate) of 1.5 Mbits/s. This rate is special
  391.    because it is the data rate of (uncompressed) audio CD's and DAT's.
  392.    The standard is in three parts, video, audio, and systems, where the
  393.    last part gives the integration of the audio and video streams
  394.    with the proper timestamping to allow synchronization of the two.
  395.    They have also gotten well into MPEG phase II, whose task is to
  396.    define a bitstream for video and audio coded at around 3 to 10
  397.    Mbits/s.
  398.  
  399. Q. So how does MPEG I work?
  400. A. First off, it starts with a relatively low resolution video
  401.    sequence (possibly decimated from the original) of about 352 by
  402.    240 frames by 30 frames/s (US--different numbers for Europe),
  403.    but original high (CD) quality audio.  The images are in color,
  404.    but converted to YUV space, and the two chrominance channels
  405.    (U and V) are decimated further to 176 by 120 pixels.  It turns
  406.    out that you can get away with a lot less resolution in those
  407.    channels and not notice it, at least in "natural" (not computer
  408.    generated) images.
  409.  
  410. <IMG SRC="yuv411.gif">
  411.  
  412. <IMG SRC="yuv422.gif">
  413.  
  414. <IMG SRC="yuv444.gif">
  415.  
  416.    The basic scheme is to predict motion from frame to frame in the
  417.    temporal direction, and then to use DCT's (discrete cosine
  418.    transforms) to organize the redundancy in the spatial directions.
  419.    The DCT's are done on 8x8 blocks, and the motion prediction is
  420.    done in the luminance (Y) channel on 16x16 blocks.  In other words,
  421.    given the 16x16 block in the current frame that you are trying to
  422.    code, you look for a close match to that block in a previous or
  423.    future frame (there are backward prediction modes where later
  424.    frames are sent first to allow interpolating between frames).
  425.    The DCT coefficients (of either the actual data, or the difference
  426.    between this block and the close match) are "quantized", which
  427.    means that you divide them by some value to drop bits off the
  428.    bottom end.  Hopefully, many of the coefficients will then end up
  429.    being zero.  The quantization can change for every "macroblock"
  430.    (a macroblock is 16x16 of Y and the corresponding 8x8's in both
  431.    U and V).  The results of all of this, which include the DCT
  432.    coefficients, the motion vectors, and the quantization parameters
  433.    (and other stuff) is Huffman coded using fixed tables.  The DCT
  434.    coefficients have a special Huffman table that is "two-dimensional"
  435.    in that one code specifies a run-length of zeros and the non-zero
  436.    value that ended the run.  Also, the motion vectors and the DC
  437.    DCT components are DPCM (subtracted from the last one) coded.
  438.  
  439. Q. So is each frame predicted from the last frame?
  440. A. No.  The scheme is a little more complicated than that.  There are
  441.    three types of coded frames.  There are "I" or intra frames.  They
  442.    are simply a frame coded as a still image, not using any past
  443.    history.  You have to start somewhere.  Then there are "P" or
  444.    predicted frames.  They are predicted from the most recently
  445.    reconstructed I or P frame.  (I'm describing this from the point
  446.    of view of the decompressor.)  Each macroblock in a P frame can
  447.    either come with a vector and difference DCT coefficients for a
  448.    close match in the last I or P, or it can just be "intra" coded
  449.    (like in the I frames) if there was no good match.
  450.  
  451.    Lastly, there are "B" or bidirectional frames.  They are predicted
  452.    from the closest two I or P frames, one in the past and one in the
  453.    future.  You search for matching blocks in those frames, and try
  454.    three different things to see which works best.  (Now I have the
  455.    point of view of the compressor, just to confuse you.)  You try using
  456.    the forward vector, the backward vector, and you try averaging the
  457.    two blocks from the future and past frames, and subtracting that from
  458.    the block being coded.  If none of those work well, you can intra-
  459.    code the block.
  460.  
  461.    The sequence of decoded frames usually goes like:
  462.  
  463.    IBBPBBPBBPBBIBBPBBPB...
  464.  
  465.    Where there are 12 frames from I to I (for US and Japan anyway.)
  466.    This is based on a random access requirement that you need a
  467.    starting point at least once every 0.4 seconds or so.  The ratio
  468.    of P's to B's is based on experience.
  469.  
  470.    Of course, for the decoder to work, you have to send that first
  471.    P *before* the first two B's, so the compressed data stream ends
  472.    up looking like:
  473.  
  474.    0xx312645...
  475.  
  476.    where those are frame numbers.  xx might be nothing (if this is
  477.    the true starting point), or it might be the B's of frames -2 and
  478.    -1 if we're in the middle of the stream somewhere.
  479.  
  480.    You have to decode the I, then decode the P, keep both of those
  481.    in memory, and then decode the two B's.  You probably display the
  482.    I while you're decoding the P, and display the B's as you're
  483.    decoding them, and then display the P as you're decoding the next
  484.    P, and so on.
  485.  
  486. Q. You've got to be kidding.
  487. A. No, really!
  488.  
  489. Q. Hmm.  Where did they get 352x240?
  490. A. That derives from the CCIR-601 digital television standard which
  491.    is used by professional digital video equipment.  It is (in the US)
  492.    720 by 243 by 60 fields (not frames) per second, where the fields
  493.    are interlaced when displayed.  (It is important to note though
  494.    that fields are actually acquired and displayed a 60th of a second
  495.    apart.)  The chrominance channels are 360 by 243 by 60 fields a
  496.    second, again interlaced.  This degree of chrominance decimation
  497.    (2:1 in the horizontal direction) is called 4:2:2.  The source
  498.    input format for MPEG I, called SIF, is CCIR-601 decimated by 2:1
  499.    in the horizontal direction, 2:1 in the time direction, and an
  500.    additional 2:1 in the chrominance vertical direction.  And some
  501.    lines are cut off to make sure things divide by 8 or 16 where
  502.    needed.
  503.  
  504. Q. What if I'm in Europe?
  505. A. For 50 Hz display standards (PAL, SECAM) change the number of lines
  506.    in a field from 243 or 240 to 288, and change the display rate to
  507.    50 fields/s or 25 frames/s.  Similarly, change the 120 lines in
  508.    the decimated chrominance channels to 144 lines.  Since 288*50 is
  509.    exactly equal to 240*60, the two formats have the same source data
  510.    rate.
  511.  
  512. Q. You didn't mention anything about the audio compression.
  513. A. Oh, right.  Well, I don't know as much about the audio compression.
  514.    Basically they use very carefully developed psychoacoustic models
  515.    derived from experiments with the best obtainable listeners to
  516.    pick out pieces of the sound that you can't hear.  There are what
  517.    are called "masking" effects where, for example, a large component
  518.    at one frequency will prevent you from hearing lower energy parts
  519.    at nearby frequencies, where the relative energy vs. frequency
  520.    that is masked is described by some empirical curve.  There are
  521.    similar temporal masking effects, as well as some more complicated
  522.    interactions where a temporal effect can unmask a frequency, and
  523.    vice-versa.
  524.  
  525.    The sound is broken up into spectral chunks with a hybrid scheme
  526.    that combines sine transforms with subband transforms, and the
  527.    psychoacoustic model written in terms of those chunks.  Whatever
  528.    can be removed or reduced in precision is, and the remainder is
  529.    sent.  It's a little more complicated than that, since the bits
  530.    have to be allocated across the bands.  And, of course, what is
  531.    sent is entropy coded.
  532.  
  533. Q. So how much does it compress?
  534. A. As I mentioned before, audio CD data rates are about 1.5 Mbits/s.
  535.    You can compress the same stereo program down to 256 Kbits/s with
  536.    no loss in discernable quality.  (So they say.  For the most part
  537.    it's true, but every once in a while a weird thing might happen
  538.    that you'll notice.  However the effect is very small, and it takes
  539.    a listener trained to notice these particular types of effects.)
  540.    That's about 6:1 compression.  So, a CD MPEG I stream would have
  541.    about 1.25 MBits/s left for video.  The number I usually see though
  542.    is 1.15 MBits/s (maybe you need the rest for the system data
  543.    stream).  You can then calculate the video compression ratio from
  544.    the numbers here to be about 26:1.  If you step back and think
  545.    about that, it's little short of a miracle.  Of course, it's lossy
  546.    compression, but it can be pretty hard sometimes to see the loss,
  547.    if you're comparing the SIF original to the SIF decompressed.  There
  548.    is, however, a very noticeable loss if you're coming from CCIR-601
  549.    and have to decimate to SIF, but that's another matter.  I'm not
  550.    counting that in the 26:1.
  551.  
  552.    The standard also provides for other bit rates ranging from 32Kbits/s
  553.    for a single channel, up to 448 Kbits/s for stereo.
  554.  
  555. Q. What's phase II?
  556. A. As I said, there is a considerable loss of quality in going from
  557.    CCIR-601 to SIF resolution.  For entertainment video, it's simply
  558.    not acceptable.  You want to use more bits and code all or almost
  559.    all the CCIR-601 data.  From subjective testing at the Japan
  560.    meeting in November 1991, it seems that 4 MBits/s can give very
  561.    good quality compared to the original CCIR-601 material.  The
  562.    objective of phase II is to define a bit stream optimized for these
  563.    resolutions and bit rates.
  564.  
  565. Q. Why not just scale up what you're doing with MPEG I?
  566. A. The main difficulty is the interlacing.  The simplest way to extend
  567.    MPEG I to interlaced material is to put the fields together into
  568.    frames (720x486x30/s).  This results in bad motion artifacts that
  569.    stem from the fact that moving objects are in different places
  570.    in the two fields, and so don't line up in the frames.  Compressing
  571.    and decompressing without taking that into account somehow tends to
  572.    muddle the objects in the two different fields.
  573.  
  574.    The other thing you might try is to code the even and odd field
  575.    streams separately.  This avoids the motion artifacts, but as you
  576.    might imagine, doesn't get very good compression since you are not
  577.    using the redundancy between the even and odd fields where there
  578.    is not much motion (which is typically most of image).
  579.  
  580.    Or you can code it as a single stream of fields.  Or you can
  581.    interpolate lines.  Or, etc. etc.  There are many things you can
  582.    try, and the point of MPEG II is to figure out what works well.
  583.    MPEG II is not limited to consider only derivations of MPEG I.
  584.    There were several non-MPEG I-like schemes in the competition in
  585.    November, and some aspects of those algorithms may or may not
  586.    make it into the final standard for entertainment video compression.
  587.  
  588. Q. So what works?
  589. A. Basically, derivations of MPEG I worked quite well, with one that
  590.    used wavelet subband coding instead of DCT's that also worked very
  591.    well.  Also among the worked-very-well's was a scheme that did not
  592.    use B frames at all, just I and P's.  All of them, except maybe one,
  593.    did some sort of adaptive frame/field coding, where a decision is
  594.    made on a macroblock basis as to whether to code that one as one
  595.    frame macroblock or as two field macroblocks.  Some other aspects
  596.    are how to code I-frames--some suggest predicting the even field
  597.    from the odd field.  Or you can predict evens from evens and odds
  598.    or odds from evens and odds or any field from any other field, etc.
  599.  
  600. Q. So what works?
  601. A. Ok, we're not really sure what works best yet.  The next step is
  602.    to define a "test model" to start from, that incorporates most of
  603.    the salient features of the worked-very-well proposals in a
  604.    simple way.  Then experiments will be done on that test model,
  605.    making a mod at a time, and seeing what makes it better and what
  606.    makes it worse.  Example experiments are, B's or no B's, DCT vs.
  607.    wavelets, various field prediction modes, etc.  The requirements,
  608.    such as implementation cost, quality, random access, etc. will all
  609.    feed into this process as well.
  610.  
  611. Q. When will all this be finished?
  612. A. I don't know.  I'd have to hope in about a year or less.
  613.  
  614. Q. How do I join MPEG?
  615. A. You don't join MPEG.  You have to participate in ISO as part of a
  616.    national delegation.  How you get to be part of the national
  617.    delegation is up to each nation.  I only know the U.S., where you
  618.    have to attend the corresponding ANSI meetings to be able to
  619.    attend the ISO meetings.  Your company or institution has to be
  620.    willing to sink some bucks into travel since, naturally, these
  621.    meetings are held all over the world.  (For example, Paris,
  622.    Santa Clara, Kurihama Japan, Singapore, Haifa Israel, Rio de
  623.    Janeiro, London, etc.)
  624.  
  625. Q. Well, then how do I get the documents, like the MPEG I standard ?
  626. A. MPEG is a ISO standard. It's exact name is ISO CD 11172.
  627.    The standard consists of three parts: System, Video, and Audio. The
  628.    System part (11172-1) deals with synchronization and multiplexing
  629.    of audio-visual information, while the Video (11172-2) and Audio
  630.    part (11172-3) address the video and the audio compression techniques
  631.    respectively.
  632.  
  633.    You may order it from your national standards body (e.g. ANSI in
  634.    the USA) or buy it from companies like
  635.      OMNICOM
  636.      phone +44 438 742424
  637.      FAX +44 438 740154
  638.  
  639.    Or from 'ISO Online' at http://www.iso.ch/welcome.html
  640.  
  641. -------------------------------------------------------------------------------
  642.  
  643. ~Subject: What is MPEG-Audio then ?
  644.  
  645. From: "Harald Popp" <POPP@iis.fhg.de>
  646. From: mortenh@oslonett.no
  647. Date:          Fri, 25 Mar 1994 19:09:06 +0100
  648.  
  649. Q.      What is MPEG?
  650. A.      MPEG is an ISO committee that proposes standards for 
  651.         compression of Audio and Video. MPEG deals with 3 issues: 
  652.         Video, Audio, and System (the combination of the two into one 
  653.         stream). You can find more info on the MPEG committee in other 
  654.         parts of this document. 
  655.         
  656. Q.      I've heard about MPEG Video. So this is the same compression 
  657.         applied to audio?
  658. A.      Definitely no. The eye and the ear... even if they are only a 
  659.         few centimeters apart, works very differently... The ear has 
  660.         a much higher dynamic range and resolution. It can pick out 
  661.         more details but it is "slower" than the eye.
  662.         The MPEG committee chose to recommend 3 compression methods 
  663.         and named them Audio Layer-1, Layer-2, and Layer-3. 
  664.  
  665. Q.      What does it mean exactly?
  666. A.      MPEG-1, IS 11172-3, describes the compression of audio 
  667.         signals using high performance perceptual coding schemes. 
  668.         It specifies a family of three audio coding schemes, 
  669.         simply called Layer-1,-2,-3, with increasing encoder 
  670.         complexity and performance (sound quality per bitrate). 
  671.         The three codecs are compatible in a hierarchical 
  672.         way, i.e. a Layer-N decoder is able to decode bitstream data 
  673.         encoded in Layer-N and all Layers below N (e.g., a Layer-3 
  674.         decoder may accept Layer-1,-2 and -3, whereas a Layer-2 
  675.         decoder may accept only Layer-1 and -2.)
  676.  
  677. Q.      So we have a family of three audio coding schemes. What does 
  678.         the MPEG standard define, exactly?
  679. A.      For each Layer, the standard specifies the bitstream format 
  680.         and the decoder. It does *not* specify the encoder to 
  681.         allow for future improvements, but an informative chapter 
  682.         gives an example for an encoder for each Layer.    
  683.  
  684. Q.      What have the three audio Layers in common?
  685. A.      All Layers use the same basic structure. The coding scheme can 
  686.         be described as "perceptual noise shaping" or "perceptual 
  687.         subband / transform coding". 
  688.         The encoder analyzes the spectral components of the audio 
  689.         signal by calculating a filterbank or transform and applies 
  690.         a psychoacoustic model to estimate the just noticeable 
  691.         noise-level. In its quantization and coding stage, the 
  692.         encoder tries to allocate the available number of data 
  693.         bits in a way to meet both the bitrate and masking 
  694.         requirements.
  695.         The decoder is much less complex. Its only task is to 
  696.         synthesize an audio signal out of the coded spectral 
  697.         components. 
  698.         All Layers use the same analysis filterbank (polyphase with 
  699.         32 subbands). Layer-3 adds a MDCT transform to increase 
  700.         the frequency resolution.
  701.         All Layers use the same "header information" in their 
  702.         bitstream, to support the hierarchical structure of the 
  703.         standard.   
  704.         All Layers use a bitstream structure that contains parts that 
  705.         are more sensitive to biterrors ("header", "bit 
  706.         allocation", "scalefactors", "side information") and parts 
  707.         that are less sensitive ("data of spectral components").  
  708.         All Layers may use 32, 44.1 or 48 kHz sampling frequency.
  709.         All Layers are allowed to work with similar bitrates:
  710.         Layer-1: from 32 kbps to 448 kbps
  711.         Layer-2: from 32 kbps to 384 kbps
  712.         Layer-3: from 32 kbps to 320 kbps
  713.  
  714. Q.      What are the main differences between the three Layers, from a 
  715.         global view?
  716. A.      From Layer-1 to Layer-3,
  717.         complexity increases (mainly true for the encoder),
  718.         overall codec delay increases, and
  719.         performance increases (sound quality per bitrate).
  720.  
  721. Q.      Which Layer should I use for my application?
  722. A.      Good Question. Of course, it depends on all your requirements. 
  723.         But as a first approach, you should consider the available 
  724.         bitrate of your application as the Layers have been 
  725.         designed to support certain areas of bitrates most 
  726.         efficiently, i.e. with a minimum drop of sound quality.   
  727.         Let us look a little closer at the strong domains of each 
  728.         Layer.    
  729.         
  730.         Layer-1: Its ISO target bitrate is 192 kbps per audio 
  731.         channel.
  732.         Layer-1 is a simplified version of Layer-2. It is most useful 
  733.         for bitrates around the "high" bitrates around or above 
  734.         192 kbps. A version of Layer-1 is used as "PASC" with the 
  735.         DCC recorder.
  736.  
  737.         Layer-2: Its ISO target bitrate is 128 kbps per audio 
  738.         channel.
  739.         Layer-2 is identical with MUSICAM. It has been designed as 
  740.         trade-off between sound quality per bitrate and encoder 
  741.         complexity. It is most useful for bitrates around the 
  742.         "medium" bitrates of 128 or even 96 kbps per audio 
  743.         channel. The DAB (EU 147) proponents have decided to use 
  744.         Layer-2 in the future Digital Audio Broadcasting network.   
  745.    
  746.         Layer-3: Its ISO target bitrate is 64 kbps per audio channel. 
  747.         Layer-3 merges the best ideas of MUSICAM and ASPEC. It has 
  748.         been designed for best performance at "low" bitrates 
  749.         around 64 kbps or even below. The Layer-3 format specifies 
  750.         a set of advanced features that all address one goal: to 
  751.  
  752.         preserve as much sound quality as possible even at rather 
  753.         low bitrates. Today, Layer-3 is already in use in various 
  754.         telecommunication networks (ISDN, satellite links, and so 
  755.         on) and speech announcement systems. 
  756.  
  757. Q.      So how does MPEG audio work?
  758. A.      Well, first you need to know how sound is stored in a 
  759.         computer. Sound is pressure differences in air. When picked up 
  760.         by a microphone and fed through an amplifier this becomes 
  761.         voltage levels. The voltage is sampled by the computer a 
  762.         number of times per second. For CD audio quality you need to 
  763.         sample 44100 times per second and each sample has a resolution 
  764.         of 16 bits. In stereo this gives you 1,4Mbit per second
  765.         and you can probably see the need for compression.
  766.  
  767.         To compress audio MPEG tries to remove the irrelevant parts 
  768.         of the signal and the redundant parts of the signal. Parts of 
  769.         the sound that we do not hear can be thrown away. To do this 
  770.         MPEG Audio uses psychoacoustic principles.
  771.  
  772. Q.      Tell me more about sound quality. How good is MPEG audio 
  773.         compression? And how do you assess that?
  774. A.      Today, there is no alternative to expensive listening tests. 
  775.         During the ISO-MPEG-1 process, 3 international listening tests 
  776.         have been performed, with a lot of trained listeners, 
  777.         supervised by Swedish Radio. They took place in 7.90, 3.91 
  778.         and 11.91. Another international listening test was 
  779.         performed by CCIR, now ITU-R, in 92.      
  780.         All these tests used the "triple stimulus, hidden reference" 
  781.         method and the so-called CCIR impairment scale to assess the 
  782.         audio quality. 
  783.         The listening sequence is "ABC", with A = original, BC = pair 
  784.         of original / coded signal with random sequence, and the 
  785.         listener has to evaluate both B and C with a number 
  786.         between 1.0 and 5.0. The meaning of these values is:
  787.         5.0 = transparent (this should be the original signal)
  788.         4.0 = perceptible, but not annoying (first differences 
  789.               noticable)
  790.         3.0 = slightly annoying   
  791.         2.0 = annoying
  792.         1.0 = very annoying
  793.         With perceptual codecs (like MPEG audio), all traditional 
  794.         parameters (like SNR, THD+N, bandwidth) are especially 
  795.         useless. 
  796.  
  797.         Fraunhofer-IIS (among others) works on objective quality 
  798.         assessment tools, like the NMR meter (Noise-to-Mask-Ratio), 
  799.         too. If you need more informations about NMR, please 
  800.         contact nmr@iis.fhg.de
  801.  
  802. Q.      Now that I know how to assess quality, come on, tell me the 
  803.         results of these tests.
  804. A.      Well, for details you should study one of those AES papers 
  805.         listed below. One main result is that for low bitrates (60 
  806.         or 64 kbps per channel, i.e. a compression ratio of around 
  807.         12:1), Layer-2 scored between 2.1 and 2.6, whereas Layer-3 
  808.         scored between 3.6 and 3.8. 
  809.         This is a significant increase in sound quality, indeed! 
  810.         Furthermore, the selection process for critical sound material 
  811.         showed that it was rather difficult to find worst-case 
  812.         material for Layer-3 whereas it was not so hard to find 
  813.         such items for Layer-2.  
  814.         For medium and high bitrates (120 kbps or more per channel), 
  815.         Layer-2 and Layer-3 scored rather similar, i.e. even 
  816.         trained listeners found it difficult to detect differences 
  817.         between original and reconstructed signal.
  818.  
  819. Q.      So how does MPEG achieve this compression ratio?
  820. A.      Well, with audio you basically have two alternatives. Either 
  821.         you sample less often or you sample with less resolution (less 
  822.         than 16 bit per sample). If you want quality you can't do much 
  823.         with the sample frequency. Humans can hear sounds with 
  824.         frequencies from about 20Hz to 20kHz. According to the Nyquist 
  825.         theorem you must sample at least two times the highest 
  826.         frequency you want to reproduce. Allowing for imperfect 
  827.         filters, a 44,1kHz sampling rate is a fair minimum. So
  828.         you either set out to prove the Nyquist theorem is wrong or 
  829.         go to work on reducing the resolution. The MPEG committee 
  830.         chose the latter.
  831.         Now, the real reason for using 16 bits is to get a good 
  832.         signal-to-noise (s/n) ratio. The noise we're talking 
  833.         about here is quantization noise from the digitizing 
  834.         process. For each bit you add, you get 6dB
  835.         better s/n. (To the ear, 6dBu corresponds to a doubling of 
  836.         the sound level.) CD-audio achieves about 90dB s/n. This 
  837.         matches the dynamic range of the ear fairly well. That is, you 
  838.         will not hear any noise coming from the system itself (well, 
  839.         there is still some people arguing about that, but lets not 
  840.         worry about them for the moment).
  841.         So what happens when you sample to 8 bit resolution? You get 
  842.         a very noticeable noise floor in your recording. You can 
  843.         easily hear this in silent moments in the music or between 
  844.         words or sentences if your recording is a human voice. 
  845.         Waitaminnit. You don't notice any noise in loud passages, 
  846.         right? This is the masking effect and is the key to MPEG Audio 
  847.         coding. Stuff like the masking effect belongs to a science 
  848.         called psycho-acoustics that deals with the way the human 
  849.         brain perceives sound.
  850.         And MPEG uses psychoacoustic principles when it does its 
  851.         thing. 
  852.         
  853. Q.      Explain this masking effect.
  854. A.      OK, say you have a strong tone with a frequency of 1000Hz. 
  855.         You also have a tone nearby of say 1100Hz. This second tone is 
  856.         18 dB lower. You are not going to hear this second tone. It is 
  857.         completely masked by the first 1000Hz tone. As a matter of 
  858.         fact, any relatively weak sounds near a strong sound is 
  859.         masked. If you introduce another tone at 2000Hz also 18 dB 
  860.         below the first 1000Hz tone, you will hear this.
  861.         You will have to turn down the 2000Hz tone to something like 
  862.         45 dB below the 1000Hz tone before it will be masked by the 
  863.         first tone. So the further you get from a sound the less 
  864.         masking effect it has.
  865.         The masking effect means that you can raise the noise floor 
  866.         around a strong sound because the noise will be masked anyway. 
  867.         And raising the noise floor is the same as using less bits 
  868.         and using less bits is the same as compression. Do you get it?
  869.  
  870. Q.      I don't get it.
  871. A.      Well, let me try to explain how the MPEG Audio Layer-2 encoder 
  872.         goes about its thing. It divides the frequency spectrum (20Hz 
  873.         to 20kHz) into 32 subbands. Each subband holds a little slice 
  874.         of the audio spectrum. Say, in the upper region of subband 8, 
  875.         a 6500Hz tone with a level of 60dB is present. OK, the 
  876.         coder calculates the masking effect of this sound and finds 
  877.         that there is a masking threshold for the entire 8th
  878.         subband (all sounds w. a frequency...) 35dB below this tone. 
  879.         The acceptable s/n ratio is thus 60 - 35 = 25 dB. The equals 4 
  880.         bit resolution. In addition there are masking effects on band 
  881.         9-13 and on band 5-7, the effect decreasing with the distance 
  882.         from band 8.
  883.         In a real-life situation you have sounds in most bands and the 
  884.         masking effects are additive. In addition the coder considers 
  885.         the sensitivity of the ear for various frequencies. The ear 
  886.         is a lot less sensitive in the high and low frequencies. Peak 
  887.         sensivity is around 2 - 4kHz, the same region that the human 
  888.         voice occupies. 
  889.         The subbands should match the ear, that is each subband should
  890.         consist of frequencies that have the same psychoacoustic 
  891.         properties. In MPEG Layer 2, each subband is 750Hz wide 
  892.         (with 48 kHz sampling frequency). It would have been better if
  893.         the subbands were narrower in the low frequency range and 
  894.         wider in the high frequency range. That is the trade-off 
  895.         Layer-2 took in favour of a simpler approach.        
  896.         Layer-3 has a much higher frequency resolution (18 times 
  897.         more) - and that is one of the reasons why Layer-3 has a much 
  898.         better low bitrate performance than Layer-2.                
  899.         But there is more to it. I have explained concurrent masking, 
  900.         but the masking effect also occurs before and after a strong 
  901.         sound (pre- and postmasking).
  902.  
  903. Q.      Before?
  904. A.      Yes, if there is a significant (30 - 40dB ) shift in level. 
  905.         The reason is believed to be that the brain needs some 
  906.         processing time. Premasking is only about 2 to 5 ms. The 
  907.         postmasking can be up till 100ms.
  908.         Other bit-reduction techniques involve considering tonal and 
  909.         non-tonal components of the sound. For a stereo signal you 
  910.         may have a lot of redundancy between channels. All MPEG 
  911.         Layers may exploit these stereo effects by using a "joint-
  912.         stereo" mode, with a most flexible approach for Layer-3.      
  913.         Furthermore, only Layer-3 further reduces the redundancy 
  914.         by applying huffmann coding. 
  915.         
  916. Q.      What are the downside?
  917. A.      The coder calculates masking effects by an iterative process 
  918.         until it runs out of time. It is up to the implementor to 
  919.         spend bits in the least obtrusive fashion.
  920.         For Layer 2 and Layer 3, the encoder works on 24 ms of sound 
  921.         (with 1152 sample, and fs = 48 kHz) at a time. For some 
  922.         material, the time-window can be a problem. This is 
  923.         normally in a situation with transients where there are large
  924.         differences in sound level over the 24 ms. The masking is 
  925.         calculated on the strongest sound and the weak parts will 
  926.         drown in quantization noise. This is perceived as a "noise-
  927.         echo" by the ear. Layer 3 addresses this problem 
  928.         specifically by using a smaller analysis window (4 ms), if 
  929.         the encoder encounters an "attack" situation. 
  930.         
  931. Q.      Tell me about the complexity. What are the hardware demands? 
  932.  
  933. A.      Alright. First, we have to separate between decoder and 
  934.         encoder. 
  935.         Remember: the MPEG coding is done asymmetrical, with a much 
  936.         larger workload on the encoder than on the decoder.
  937.         For a stereo decoder, variuos real-time implementations exist 
  938.         for Layer-2 and Layer-3. They are either based on single-DSP 
  939.         solutions or on dedicated MPEG audio decoder chips. So
  940.         you need not worry about decoder complexity.
  941.         For a stereo Layer-2-encoder, various DSP based solutions with 
  942.         one or more DSPs exist (with different quality, also).
  943.         For a stereo Layer-3-encoder achieving ISO reference quality, 
  944.         the current real-time implementations use two DSP32C and 
  945.         two DSP56002. 
  946.         
  947. Q.      How many audio channels?
  948. A.      MPEG-1 allows for two audio channels. These can be either 
  949.         single (mono), dual (two mono channels), stereo or 
  950.         joint stereo (intensity stereo (Layer-2 and Layer-3) or m/s-
  951.         stereo (Layer-3 only)). 
  952.         In normal (l/r) stereo one channel carries the left audio 
  953.         signal and one channel carries the right audio signal. In
  954.         m/s stereo one channel carries the sum signal (l+r) and the 
  955.         other the difference (l-r) signal. In intensity stereo the 
  956.         high frequency part of the signal (above 2kHz) is combined. 
  957.         The stereo image is preserved but only the temporal envelope 
  958.         is transmitted.
  959.         In addition MPEG allows for pre-emphasis, copyright marks and
  960.         original/copy marks. MPEG-2 allows for several channels in 
  961.         the same stream.
  962.  
  963. Q.      What about the audio codec delay?
  964. A.      Well, the standard gives some figures of the theoretical 
  965.         minimum delay:
  966.         Layer-1: 19 ms (<50 ms)
  967.         Layer-2: 35 ms (100 ms)
  968.         Layer-3: 59 ms (150 ms)
  969.         The practical values are significantly above that. As they 
  970.         depend on the implementation, exact figures are hard to 
  971.         give. So the figures in brackets are just rough thumb 
  972.         values.    
  973.         Yes, for some applications, a very short delay is of critical 
  974.         importance. E.g. in a feedback link, a reporter can only talk 
  975.         intelligibly if the overall delay is below around 10 ms. 
  976.         If broadcasters want to apply MPEG audio coding, they have to 
  977.         use "N-1" switches in the studio to overcome this problem 
  978.         (or appropriate echo-cancellers) - or they have to forget 
  979.         about MPEG at all. 
  980.         But with most applications, these figures are small enough to 
  981.         present no extra problem. At least, if one can accept a Layer-
  982.         2 delay, one can most likely also accept the higher Layer-3 
  983.         delay.
  984.  
  985. Q.     OK, I am hooked on! Where can I find more technical 
  986.        informations about MPEG audio coding, especially about Layer-
  987.        3?   
  988. A.     Well, there is a variety of AES papers, e.g.
  989.  
  990.        K. Brandenburg, G. Stoll, ...: "The ISO/MPEG-Audio Codec: A 
  991.        Generic Standard for Coding of High Quality Digital Audio", 
  992.        92nd AES, Vienna 1992, pp.3336
  993.    
  994.        E. Eberlein, H. Popp, ...: "Layer-3, a Flexible Coding 
  995.        Standard",    94th AES, Berlin 93, pp.3493   
  996.    
  997.        K. Brandenburg, G. Zimmer, ...: "Variable Data-Rate Recording 
  998.        on a PC Using MPEG-Audio Layer-3", 95th AES, New York 93
  999.    
  1000.        B. Grill, J. Herre,... : "Improved MPEG-2 Audio Multi-Channel 
  1001.        Encoding", 96th AES, Amsterdam 94
  1002.  
  1003.        And for further informations, please contact layer3@iis.fhg.de
  1004.  
  1005. Q.     Where can I get more details about MPEG audio?
  1006. A.     Still more details? No shit. You can get the full ISO spec 
  1007.        from Omnicom. The specs do a fairly good job of obscuring 
  1008.        exactly how these things are supposed to work... Jokes aside, 
  1009.        there are no description of the coder in the specs. The specs 
  1010.        describes in great detail the bitstream and suggests 
  1011.        psychoacoustic models. 
  1012.  
  1013. Originally written by Morten Hjerde <100034,663@compuserve.com>, 
  1014. modified and updated by Harald Popp (layer3@iis.fhg.de).
  1015.  
  1016. Harald Popp
  1017. Audio & Multimedia ("Music is the *BEST*" - F. Zappa)
  1018. Fraunhofer-IIS-A, Weichselgarten 3, D-91058 Erlangen, Germany
  1019. Phone: +49-9131-776-340
  1020. Fax:   +49-9131-776-399
  1021. email: popp@iis.fhg.de
  1022.  
  1023. -------------------------------------------------------------------------------
  1024.  
  1025. ~Subject: What is the Audio Layer 3 then ?
  1026.  
  1027. Informations about MPEG Audio Layer-3
  1028. Version 1.51 - 1. 95
  1029.  
  1030. This text is organized as a kind of Mini-FAQ (Frequently Asked
  1031. Questions). It covers several topics:
  1032.  
  1033. 1. ISO-MPEG Standard
  1034. 2. MPEG Audio Codec Family ("Layer 1, 2, 3")
  1035. 3. Applications
  1036. 4. Products 
  1037. 5. Support by Fraunhofer-IIS
  1038. 6. Shareware Information
  1039.  
  1040. For further comments and questions regarding Layer-3, please contact:
  1041. -    layer3@iis.fhg.de
  1042.  
  1043. For further informations about MPEG, you may also like to contact:
  1044. -    phade@powerweb.de
  1045.  
  1046.  
  1047. 1. ISO-MPEG Standard
  1048.  
  1049. Q: What is MPEG, exactly?
  1050. A: MPEG is the "Moving Picture Experts Group", working under the joint 
  1051. direction of the International Standards Organization (ISO) and the 
  1052. International Electro-Technical Commission (IEC). This group works on 
  1053. standards for the coding of moving pictures and associated audio.
  1054.    
  1055. Q: What is the status of MPEG's work, then? What about MPEG-1, -2, and so 
  1056. on?
  1057. A: MPEG approaches the growing need for multimedia standards step-by-
  1058. step. Today, three "phases" are defined:
  1059.  
  1060. MPEG-1:"Coding of Moving Pictures and Associated Audio for 
  1061. Digital Storage Media at up to about 1.5 MBit/s"  
  1062. Status: International Standard IS-11172, completed in 10.92
  1063.  
  1064. MPEG-2:"Generic Coding of Moving Pictures and Associated 
  1065. Audio"
  1066. Status: International Standard IS-13818, completed in 11.94
  1067.  
  1068. MPEG-3: does no longer exist (has been merged into MPEG-2)
  1069.  
  1070. MPEG-4: "Very Low Bitrate Audio-Visual Coding"
  1071. Status: Call for Proposals first deadline 1. 10. 95
  1072.  
  1073. Q: MPEG-1 and MPEG-2 are  ready-for-use. How do the standards look like?
  1074. A: Both standards consist of 4 main parts.
  1075. The structure is the same for MPEG-1 and MPEG-2.
  1076. -1: System    describes synchronization and multiplexing of video and audio
  1077. -2: Video describes compression of video signals
  1078. -3: Audio describes compression of audio signals 
  1079. -4: Compliance Testing describes procedures for determining the characteristics
  1080. of coded bitstreams and the decoding process and for testing compliance with
  1081. the requirements stated in the other parts.
  1082.  
  1083. Q: How do I get the MPEG documents?
  1084. A: You order it from your national standards body.
  1085. E.g., in Germany, please contact:
  1086. DIN-Beuth Verlag, Auslandsnormen
  1087. Mrs. Niehoff, Burggrafenstr. 6, D-10772 Berlin, Germany
  1088. Phone: +49-30-2601-2757, Fax: +49-30-2601-1231
  1089.  
  1090.  
  1091. 2. MPEG Audio Codec Family ("Layer 1, 2, 3")
  1092.    
  1093. Q: Talking about MPEG audio coding, I heard a lot about "Layer 1, 2 and 3". 
  1094. What does it mean, exactly?   
  1095. A: MPEG describes the compression of audio signals using high performance 
  1096. perceptual coding schemes. It specifies a family of three audio coding 
  1097. schemes, simply called Layer-1,-2,-3, with increasing encoder complexity 
  1098. and performance (sound quality per bitrate) from 1 to 3. 
  1099. The three codecs are compatible in a hierarchical way, i.e. a Layer-N 
  1100. decoder is able to decode bitstream data encoded in Layer-N and all Layers 
  1101. below N (e.g., a Layer-3 decoder may accept Layer-1,-2 and -3, whereas a 
  1102. Layer-2 decoder may accept only Layer-1 and -2.)
  1103.  
  1104. Q: So we have a family of three audio coding schemes. What does the MPEG 
  1105. standard define, exactly?
  1106. A: For each Layer, the standard specifies the bitstream format and the 
  1107. decoder. To allow for future improvements, it does *not* specify the 
  1108. encoder, but an informative chapter gives an example for an encoder for 
  1109. each Layer.    
  1110.  
  1111. Q: What have the three audio Layers in common?
  1112. A: All Layers use the same basic structure. The coding scheme can be 
  1113. described as "perceptual noise shaping" or "perceptual subband / transform 
  1114. coding". 
  1115. The encoder analyzes the spectral components of the audio signal by 
  1116. calculating a filterbank or transform and applies a psychoacoustic model 
  1117. to estimate the just noticeable noise-level. In its quantization and coding 
  1118. stage, the encoder tries to allocate the available number of data bits in a 
  1119. way to meet both the bitrate and masking requirements.
  1120. The decoder is much less complex. Its only task is to synthesize an audio 
  1121. signal out of the coded spectral components.
  1122. All Layers use the same analysis filterbank (polyphase with 32 subbands). 
  1123. Layer-3 adds a MDCT transform to increase the frequency resolution.
  1124. All Layers use the same "header information" in their bitstream, to support 
  1125. the hierarchical structure of the standard.
  1126. All Layers have a similar sensitivity to biterrors. They use a bitstream 
  1127. structure that contains parts that are more sensitive to biterrors ("header", 
  1128. "bit allocation", "scalefactors", "side information") and parts that 
  1129. are less sensitive ("data of spectral components").
  1130. All Layers support the insertion of programm-associated information 
  1131. ("ancillary data") into their audio data bitstream.
  1132. All Layers may use 32, 44.1 or 48 kHz sampling frequency.
  1133. All Layers are allowed to work with similar bitrates:
  1134. Layer-1: from 32 kbps to 448 kbps
  1135. Layer-2: from 32 kbps to 384 kbps
  1136. Layer-3: from 32 kbps to 320 kbps
  1137. The last two statements refer to MPEG-1; with MPEG-2, there is an 
  1138. extension for the sampling frequencies and bitrates (see below).
  1139.  
  1140. Q: What are the main differences between the three Layers, from a global 
  1141. view?
  1142. A: From Layer-1 to Layer-3,
  1143. complexity increases (mainly true for the encoder),
  1144. overall codec delay increases, and
  1145. performance increases (sound quality per bitrate).
  1146.  
  1147. Q: What are the main differences between MPEG-1 and MPEG-2 in the audio 
  1148. part?
  1149. A: MPEG-1 and MPEG-2 use the same family of audio codecs, Layer-1, -2 
  1150. and -3. The new audio features of MPEG-2 are:
  1151. "low sample rate extension" to address very low bitrate applications 
  1152. with limited bandwidth requirements (the new sampling frequencies 
  1153. are 16, 22.05 or 24 kHz, the bitrates extend down to 8 kbps),
  1154. "multichannel extension" to address surround sound applications 
  1155. with up to 5 main audio channels (left, center, right, left surround, 
  1156. right surround) and optionally 1 extra "low frequency enhancement 
  1157. (LFE)" channel for subwoofer signals; in addition, a "multilingual 
  1158. extension" allows the inclusion of up to 7 more audio channels.
  1159.     
  1160. Q: A lot of new stuff! Is this all compatible to each other?
  1161. A: Well, more or less, yes - with the execption of the low sample rate 
  1162. extension. Obviously, a pure MPEG-1 decoder is not able to handle the 
  1163. new "half" sample rates.
  1164.  
  1165. Q: You mean: compatible!? With all these extra audio channels? Please 
  1166. explain!
  1167. A: Compatibility has been a major topic during the MPEG-2 definition phase. 
  1168. The main idea is to use the same basic bitstream format as defined in 
  1169. MPEG-1, with the main data field carrying two audio signals (called L0 
  1170. and R0) as before, and the ancillary data field carrying the multichannel 
  1171. extension information. Without going further into details, three terms can 
  1172. be explained here:
  1173. "forwards compatible": the MPEG-2 decoder has to accept any 
  1174. MPEG-1 audio bitstream (that represents one or two audio channels)
  1175. "backwards compatible": the MPEG-1 decoder should be able to 
  1176. decode the audio signals in the main data field (L0 and R0) of the 
  1177. MPEG-2 bitstream
  1178. "Matrixing" may be used to get the surround information into L0 and 
  1179. R0:
  1180. L0 = left signal + a * center signal + b * left surround signal
  1181. R0 = right signal + a * center signal + b * right surround signal 
  1182. Therefore, a MPEG-1 decoder can reproduce a comprehensive downmix of 
  1183. the full 5-channel information. A MPEG-2 decoder uses the multichannel 
  1184. extension information (3 more audio signals) to reconstruct the five 
  1185. surround channels.
  1186.  
  1187. Q: I heard something about a new NBC mode for MPEG-2 audio? What does 
  1188. it mean?
  1189. A: "NBC" stands for "non-backwards compatible". During the development 
  1190. of the backwards compatible MPEG-2 standard, the experts encountered 
  1191. some trouble with the compatibility matrix. The introduced quantisation 
  1192. noise may become audible after dematrixing. Although some clever 
  1193. strategies have been devised to overcome this problem, the question 
  1194. remained how much better a non-compatible multichannel codec might 
  1195. perform.
  1196. So ISO-MPEG decided to address that issue in a "NBC" working group - 
  1197. among the proponents are AT&T, Dolby, Fraunhofer, IRT, Philips, and 
  1198. Sony. Their work will lead to an addendum to the MPEG-2 standard 
  1199. (13818-8).
  1200.  
  1201. Q: O.K., that should do for a first overview. Are there some papers for a more 
  1202. detailed information?
  1203. A: Sure! You'll find more technical informations about MPEG audio coding 
  1204. in a variety of AES papers (AES = Audio Engineering Society). The AES 
  1205. organizes two conventions per year, and perceptual audio coding has been 
  1206. a topic since the middle of the 80s. Some interesting papers might be:
  1207.  
  1208. K. Brandenburg, G. Stoll, et al.: "The ISO/MPEG-Audio Codec: A 
  1209. Generic Standard for Coding of High Quality Digital Audio", 92nd 
  1210. AES, Vienna Mar. 92, pp. 3336; revised version ("ISO-MPEG-1 
  1211. Audio: A Generic Standard...") published in the Journal of AES, 
  1212. Vol.42, No. 10, Oct. 94
  1213.  
  1214. S. Church, B. Grill, et al.: "ISDN and ISO/MPEG Layer-3 Audio 
  1215. Coding: Powerful New tools for Broadcast and Audio Production", 
  1216. 95th AES, New York Oct. 93, pp. 3743
  1217.  
  1218. E. Eberlein, H. Popp, et al.: "Layer-3, a Flexible Coding Standard", 
  1219. 94th AES, Berlin Mar. 93, pp. 3493   
  1220.    
  1221. B. Grill, J. Herre, et al.: "Improved MPEG-2 Audio Multi-Channel 
  1222. Encoding", 96th AES, Amsterdam Feb. 94, pp. 3865
  1223.  
  1224. J. Herre, K. Brandenburg, et al.: "Second Generation ISO/MPEG 
  1225. Audio Layer-3 Coding", 98th AES, Paris Feb. 95
  1226.  
  1227. F.-O. Witte, M. Dietz, et al.: "'Single Chip Implementation of an 
  1228. ISO/MPEG Layer-3 Decoder", 96th AES, Amsterdam Feb. 94, pp. 
  1229. 3805
  1230.  
  1231. For ordering informations, contact:
  1232.  
  1233. AES
  1234. 60 East 42nd Street, Suite 2520
  1235. New York, NY 10165-2520, USA
  1236. phone: (212) 661-8528, fax: (212) 682-0477    
  1237.  
  1238. Another interesting publication: the "Proceedings of the Sixth Tirrenia 
  1239. International Workshop on Digital Communications", Tirrenia Sep. 93, 
  1240. Elsevier Science B.V. Amsterdam 94 (ISBN 0 444 81580 5).
  1241.  
  1242. An excellent tutorial about MPEG-2 has recently been published in a 
  1243. German technical journal (Fernseh- und Kino-Technik); part 4, by E. F. 
  1244. Schroeder and J. Spille, talks about the audio part (7/8 94, p. 364 ff).
  1245.  
  1246. And for further informations, please feel free to contact layer3@iis.fhg.de.
  1247.  
  1248.  
  1249. 3. Applications
  1250.  
  1251. Q: O.K., let us concentrate on one or two audio channels. Which Layer shall I 
  1252. use for my application?
  1253. A: Good Question. Of course, it depends on all your requirements. But as a 
  1254. first approach, you should consider the available bitrate of your 
  1255. application as the Layers have been designed to support certain areas of 
  1256. bitrates most effectively. Roughly, today you can achieve a data reduction 
  1257. of around
  1258. 1:4    with Layer-1 (or 192 kbps per audio channel),
  1259. 1:6..8    with Layer-2 (or 128..96 kbps per audio channel), and 
  1260. 1:10..12    with Layer-3, (or 64..56 kbps per audio channel),
  1261. and still the reconstructed audio signal will maintain a "CD-like" sound 
  1262. quality. This may be used as a first "thumb rule" - let's talk about details 
  1263. later on.
  1264.  
  1265. Q:    Why does the performance increase with the number of the Layer? Why 
  1266. does the standard define a family of audio codecs instead of one single 
  1267. powerful algorithm?
  1268. A: Well, the MPEG standard has forged together two main coding schemes 
  1269. that offered advantages either in complexity (MUSICAM) or in 
  1270. performance (ASPEC).
  1271. Layer-2 is identical with the MUSICAM format. It has been designed as a 
  1272. trade-off between sound quality per bitrate and encoder complexity. So it is 
  1273. most useful for the "medium" range of bitrates (96..128 kbps per channel).
  1274. For higher bitrates, even a simplified version, the Layer-1, performs well 
  1275. enough. Layer-1 has originally been developed for a target bitrate of 192 
  1276. kbps per channel. It is used as "PASC" within the DCC recorder.
  1277. For lower bitrates (64 kbps per channel or even less), the Layer-2 format 
  1278. suffers from its build-in limitations, and with decreasing bitrate, artefacts 
  1279. become audible more and more. Here is the strong domain of the most 
  1280. powerful MPEG audio format, Layer-3. It specifies a set of unique features 
  1281. that all address one goal: to preserve as much sound quality as possible 
  1282. even at very low bitrates.
  1283.  
  1284. Q: Wait a second! I understand that Layer-3 has been an important asset to 
  1285. the MPEG-1 standard, to address the high-quality low bitrate 
  1286. applications. With the advent of  the "low sample rate extension (LSF)" in 
  1287. MPEG-2, is it still necessary to rely on Layer-3 to achieve a high-quality 
  1288. sound at low bitrates?
  1289. A: Yes, for sure! Please, don't mix up MPEG-1 and MPEG-2 LSF. MPEG-2 
  1290. LSF is useful only for applications with limited bandwidth (11.25 kHz, at 
  1291. best). For applications with full bandwidth, MPEG-1 Layer-3 at 64 or 56 
  1292. kbps per channel achieves the best sound quality of all ISO codecs.
  1293. For applications with limited bandwidth, MPEG-2 LSF Layer-3 provides 
  1294. an excellent sound quality at 56 kbps for monophonic speech signals and 
  1295. still a good sound quality at only 64 kbps total bitrate for stereo music 
  1296. signals (with around 10 kHz bandwidth). The latest MPEG ISO listening 
  1297. test (in September 94 at NTT Japan, doc. MPEG 94/437) proved the 
  1298. superior performance of Layer-3 in MPEG-1 and MPEG-2 LSF.
  1299.  
  1300. Q: Tell me more about sound quality. How do you assess that?
  1301. A: Today, there is no alternative to expensive listening tests. During the ISO-
  1302. MPEG process, a number of international listening tests have been 
  1303. performed, with a lot of trained listeners. All these tests used the "triple 
  1304. stimulus, hidden reference" method and the "CCIR impairment scale" to 
  1305. assess the sound quality.
  1306. The listening sequence is "ABC", with A = original, BC = pair of original 
  1307. / coded signal with random sequence, and the listener has to evaluate both 
  1308. B and C with a number between 1.0 and 5.0. The meaning of these values 
  1309. is:
  1310.    5.0 = transparent (this should be the original signal)
  1311.    4.0 = perceptible, but not annoying (first differences noticable)  
  1312.    3.0 = slightly annoying   
  1313.    2.0 = annoying
  1314.    1.0 = very annoying
  1315.  
  1316. Q: Is there really no alternative to listening tests?
  1317. A: No, there is not. With perceptual codecs, all traditional "quality" 
  1318. parameters (like SNR, THD+N, bandwidth) are rather useless, as any 
  1319. codec may introduce noise and distortions as long as it does not affect the 
  1320. perceived sound quality. So, listening tests are necessary, and, if carefully 
  1321. prepared and performed, lead to rather reliable results.
  1322. Nevertheless, Fraunhofer-IIS works on objective sound quality assessment 
  1323. tools, too. There is already a first product available, the NMR meter, a 
  1324. real-time DSP-based measurement tool that nicely supports the analysis of 
  1325.