home *** CD-ROM | disk | FTP | other *** search
/ Celestin Apprentice 2 / Apprentice-Release2.iso / Information / Specifications / Graphics / MPEG / mpeg-faq⁄part1 < prev    next >
Encoding:
Internet Message Format  |  1994-12-03  |  49.8 KB  |  [TEXT/R*ch]

  1. Path: bloom-beacon.mit.edu!spool.mu.edu!howland.reston.ans.net!EU.net!Germany.EU.net!netmbx.de!zrz.TU-Berlin.DE!cs.tu-berlin.de!phade
  2. From: phade@cs.tu-berlin.de (Frank Gadegast)
  3. Newsgroups: comp.graphics,comp.graphics.animation,comp.compression,comp.multimedia,alt.binaries.multimedia,alt.binaries.pictures.utilities,alt.binaries.pictures,alt.binaries.pictures.d,alt.answers,comp.answers,news.answers
  4. Subject: MPEG-FAQ: multimedia compression [1/6]
  5. Followup-To: alt.binaries.multimedia
  6. Date: 22 Aug 1994 12:28:13 GMT
  7. Organization: Technical University of Berlin, Germany
  8. Lines: 1008
  9. Approved: news-answers-request@MIT.EDU
  10. Expires: 17 Nov 1994 10:46:56 GMT
  11. Message-ID: <33a5kt$5c7@news.cs.tu-berlin.de>
  12. Reply-To: phade@cs.tu-berlin.de
  13. NNTP-Posting-Host: marmor.cs.tu-berlin.de
  14. Mime-Version: 1.0
  15. Content-Type: text/plain; charset=iso-8859-1
  16. Content-Transfer-Encoding: 8bit
  17. Summary: The is the summary about the ISO-Videoformats MPEG 1 and MPEG 2
  18. Keywords: MPEG, FAQ, Compression
  19. Xref: bloom-beacon.mit.edu comp.graphics:29565 comp.graphics.animation:10742 comp.compression:9509 comp.multimedia:17441 alt.binaries.multimedia:8488 alt.binaries.pictures.utilities:18736 alt.binaries.pictures:8032 alt.binaries.pictures.d:10070 alt.answers:4108 comp.answers:6899 news.answers:24460
  20.  
  21. Archive-name: mpeg-faq/part1
  22. Last-modified: 1994/08/22
  23. Version: v 3.2 94/08/22
  24. Posting-Frequency: bimonthly
  25.  
  26.  
  27. BEGIN -------------------- CUT HERE --------------------- 1/6
  28.  
  29.         ====================================================
  30.         THE MPEG-FAQ            [Version 3.2 - 22. Aug 1994]
  31.         ====================================================
  32.         PHADE SOFTWARE Leibnizstr. 30, 10625 Berlin, GERMANY
  33.         Inh. Frank Gadegast          Fon/Fax: +49 30 3128103
  34.  
  35.         phade@cs.tu-berlin.de
  36.         http://www.cs.tu-berlin.de/~phade
  37.  
  38.  
  39. ===========================================================================
  40.  
  41. This is my summary about MPEG.
  42.  
  43. It's the fourth publication of this file. Lots of information has been
  44. added (which has surely brought errors with it, see Murphy's Law).
  45.  
  46. This fourth addition is different to the previous ones.
  47.  
  48. First:  Some old sections have been removed, because they are old or there was
  49.         nothing changing. So for a starter you can read the last MPEG-FAQ's
  50.         (Version 1.1, 2.0, or 3.0) Get them via ftp from
  51.  
  52.         host: ftp.cs.tu-berlin.de (130.149.17.7) or
  53.               quepasa.cs.tu-berlin.de
  54.         file: /pub/msdos/dos/graphics/mpegfa11.zip
  55.         file: /pub/msdos/dos/graphics/mpegfa20.zip
  56.         file: /pub/msdos/dos/graphics/mpegfa30.zip
  57.  
  58.         This new FAQ will be there soon too, as 'mpegfa31.zip'.
  59.         My MPEG-related software and my DOS-ports of several
  60.         programs can be found there too.
  61.  
  62. Second: The people where more interested to get the complete archives.
  63.         Therefore the TRAIL-PACK-Service is still running. I'm still
  64.         collecting EVERY info, video, sound or program.
  65.         Get the Trail-Pack !
  66.  
  67. Third:  MPEG-audio is coming ! There is source-code ! There is a brand-new
  68.         written audio-section in this FAQ written by Harald Popp and
  69.         Morton Hjerde, thnx to both. And even MPEG-2 things are coming !
  70.  
  71. Fourth: MPEG-interleaving (audio and video together you know !) is about
  72.         to be the next step. The pretty first things are there, incl.
  73.         interleaved streams.
  74.  
  75. Fifth:  The INDEX-files are excluded in this release of the MPEG-FAQ.
  76.         You can ftp it from the same place you got this file from.
  77.         It should be usally called MPGIDX31.ZIP ! It includes the
  78.         INDEX-file (first picture of all known MPEG-movies) and the
  79.         AINDEX-file (about 2 seconds of know MPEG-AUDIO-streams in
  80.         one MPEG-stream) and text-indexes for movies and audio-files.
  81.  
  82. Sixth:  The MPEG Trailpack CD-Rom is there ! Get it ! More than
  83.         430 MB of movies, songs, documentation and utilities !
  84.         Read below, about how to Order !
  85.  
  86.  
  87. Seventh:The newest FAQ can always be loaded using Mosaic from:
  88.             http://www.cs.tu-berlin.de/~phade
  89.         And surely, there are more interesting things to find ;o)
  90.  
  91. Eigths: AND I HEARBY PROCLAIM, that: MPEG is getting SO important, that
  92.         in about 5 years, you go to your HiFi-Dealer and you ask him
  93.         if the TV or Stereo is capable of MPEG to make your descision,
  94.         not if it works with CD's or HDTV !!!
  95.  
  96. You should read carefully through this FAQ this time, cause lots of new
  97. information is hidden in all the sections. F.e. news about Dos, Amiga-,
  98. Atari-, OS/2-, Windows-, Windows-NT, VMS-, NeXT, Unix- and Mac-Players
  99. and coders !!! Read about the future of MPEG ...
  100.         
  101.  
  102. This summary is devided in 12 parts:
  103.  
  104.  I    |  WHAT IS MPEG-VIDEO/AUDIO ?
  105.  II   |  PROFESSIONAL SOFTWARE
  106.  III  |  PUBLIC-DOMAIN SOFTWARE OR SHAREWARE
  107.  IV   |  MPEG-RELATED HARDWARE
  108.  V    |  MAILBOX-ACCESS
  109.  VI   |  FTP-ACCESS (PD)
  110.  VII  |  MAIL-ORDER
  111.  VIII |  RETRIEVED MAIL OR ARTICLES
  112.  IX   |  ADDITIONAL INFORMATION
  113.  X    |  WHERE TO FIND MORE INFOS
  114.  XI   |  NEWS
  115.  XII  |  QUESTIONS
  116.  
  117. I add my comments in brackets [], lines (---- or ====) seperate the
  118. chapters.
  119.  
  120. Please try and find out more information yourself. I had enough to do by
  121. getting and preparing this information. And only bother me with file-
  122. request if its not possible for you to get it somewhere else !!!
  123.  
  124. If you want to contribute to this FAQ in any way, please email me
  125. (probably by replying to this posting). My email address is:
  126.  
  127.   phade@cs.tu-berlin.de
  128.  
  129. Or send any additional information via fax or e-mail. The fax is only
  130. reachable between Mo.-Fr. from 10.00-13.00 and from 15.00-18.30 german
  131. time.
  132.  
  133.     Phade (Frank Gadegast)
  134.  
  135.  
  136. DISCLAIMER: I HAVE NOTHING TO DO WITH THE NAMED COMPANIES, NO BUSINESS,
  137.             IT'S JUST MY PERSONAL INTERESTED. THESE COMPANIES ARE NAMED,
  138.             BECAUSE THEY ARE THE FIRST, BRINGING REAL MULTIMEDIA TO THE
  139.             WORLD. SURE I MAKE ADVERTS FOR THEM WITH THIS FAQ, BUT HOPE-
  140.             FULLY YOU, AS A READER OF THIS FAQ, WILL FORCE THEM TO PRODUCE
  141.             MORE AND BETTER PRODUCTS.
  142.  
  143.  
  144. ===========================================================================
  145.  I.1 | WHAT IS MPEG-VIDEO/VIDEO
  146. ===============================
  147.  
  148. -------------------------------------------------------------------------------
  149.  I.1 | MPEG-Video
  150. -----------------
  151.  
  152. From comp.compression Mon Oct 19 15:38:38 1992
  153. Sender: news@chorus.chorus.fr
  154. Author: Mark Adler <madler@cco.caltech.edu>
  155.  
  156. [71] Introduction to MPEG (long)
  157.        What is MPEG?
  158.        Does it have anything to do with JPEG?
  159.        Then what's JBIG and MHEG?
  160.        What has MPEG accomplished?
  161.        So how does MPEG I work?
  162.        What about the audio compression?
  163.        So how much does it compress?
  164.        What's phase II?
  165.        When will all this be finished?
  166.        How do I join MPEG?
  167.        How do I get the documents, like the MPEG I draft?
  168.  
  169. [ There is no newer version of this part so far. Whoever wants to update ]
  170. [ this description, should do the job and send it over.                  ]
  171.  
  172. ------------------------------------------------------------------------------
  173.  
  174. Subject: [71] Introduction to MPEG (long)
  175.  
  176.  
  177. Written by Mark Adler <madler@cco.caltech.edu>.
  178.  
  179. Q. What is MPEG?
  180. A. MPEG is a group of people that meet under ISO (the International
  181.    Standards Organization) to generate standards for digital video
  182.    (sequences of images in time) and audio compression.  In particular,
  183.    they define a compressed bit stream, which implicitly defines a
  184.    decompressor.  However, the compression algorithms are up to the
  185.    individual manufacturers, and that is where proprietary advantage
  186.    is obtained within the scope of a publicly available international
  187.    standard.  MPEG meets roughly four times a year for roughly a week
  188.    each time.  In between meetings, a great deal of work is done by
  189.    the members, so it doesn't all happen at the meetings.  The work
  190.    is organized and planned at the meetings.
  191.  
  192. Q. So what does MPEG stand for?
  193. A. Moving Pictures Experts Group.
  194.  
  195. Q. Does it have anything to do with JPEG?
  196. A. Well, it sounds the same, and they are part of the same subcommittee
  197.    of ISO along with JBIG and MHEG, and they usually meet at the same
  198.    place at the same time.  However, they are different sets of people
  199.    with few or no common individual members, and they have different
  200.    charters and requirements.  JPEG is for still image compression.
  201.  
  202. Q. Then what's JBIG and MHEG?
  203. A. Sorry I mentioned them. Ok, I'll simply say that JBIG is for binary
  204.    image compression (like faxes), and MHEG is for multi-media data
  205.    standards (like integrating stills, video, audio, text, etc.).
  206.    For an introduction to JBIG, see question 74 below.
  207.  
  208. Q. Ok, I'll stick to MPEG.  What has MPEG accomplished?
  209. A. So far (as of January 1992), they have completed the "Committee
  210.    Draft" of MPEG phase I, colloquially called MPEG I.  It defines
  211.    a bit stream for compressed video and audio optimized to fit into
  212.    a bandwidth (data rate) of 1.5 Mbits/s.  This rate is special
  213.    because it is the data rate of (uncompressed) audio CD's and DAT's.
  214.    The draft is in three parts, video, audio, and systems, where the
  215.    last part gives the integration of the audio and video streams
  216.    with the proper timestamping to allow synchronization of the two.
  217.    They have also gotten well into MPEG phase II, whose task is to
  218.    define a bitstream for video and audio coded at around 3 to 10
  219.    Mbits/s.
  220.  
  221. Q. So how does MPEG I work?
  222. A. First off, it starts with a relatively low resolution video
  223.    sequence (possibly decimated from the original) of about 352 by
  224.    240 frames by 30 frames/s (US--different numbers for Europe),
  225.    but original high (CD) quality audio.  The images are in color,
  226.    but converted to YUV space, and the two chrominance channels
  227.    (U and V) are decimated further to 176 by 120 pixels.  It turns
  228.    out that you can get away with a lot less resolution in those
  229.    channels and not notice it, at least in "natural" (not computer
  230.    generated) images.
  231.  
  232.    The basic scheme is to predict motion from frame to frame in the
  233.    temporal direction, and then to use DCT's (discrete cosine
  234.    transforms) to organize the redundancy in the spatial directions.
  235.    The DCT's are done on 8x8 blocks, and the motion prediction is
  236.    done in the luminance (Y) channel on 16x16 blocks.  In other words,
  237.    given the 16x16 block in the current frame that you are trying to
  238.    code, you look for a close match to that block in a previous or
  239.    future frame (there are backward prediction modes where later
  240.    frames are sent first to allow interpolating between frames).
  241.    The DCT coefficients (of either the actual data, or the difference
  242.    between this block and the close match) are "quantized", which
  243.    means that you divide them by some value to drop bits off the
  244.    bottom end.  Hopefully, many of the coefficients will then end up
  245.    being zero.  The quantization can change for every "macroblock"
  246.    (a macroblock is 16x16 of Y and the corresponding 8x8's in both
  247.    U and V).  The results of all of this, which include the DCT
  248.    coefficients, the motion vectors, and the quantization parameters
  249.    (and other stuff) is Huffman coded using fixed tables.  The DCT
  250.    coefficients have a special Huffman table that is "two-dimensional"
  251.    in that one code specifies a run-length of zeros and the non-zero
  252.    value that ended the run.  Also, the motion vectors and the DC
  253.    DCT components are DPCM (subtracted from the last one) coded.
  254.  
  255. Q. So is each frame predicted from the last frame?
  256. A. No.  The scheme is a little more complicated than that.  There are
  257.    three types of coded frames.  There are "I" or intra frames.  They
  258.    are simply a frame coded as a still image, not using any past
  259.    history.  You have to start somewhere.  Then there are "P" or
  260.    predicted frames.  They are predicted from the most recently
  261.    reconstructed I or P frame.  (I'm describing this from the point
  262.    of view of the decompressor.)  Each macroblock in a P frame can
  263.    either come with a vector and difference DCT coefficients for a
  264.    close match in the last I or P, or it can just be "intra" coded
  265.    (like in the I frames) if there was no good match.
  266.  
  267.    Lastly, there are "B" or bidirectional frames.  They are predicted
  268.    from the closest two I or P frames, one in the past and one in the
  269.    future.  You search for matching blocks in those frames, and try
  270.    three different things to see which works best.  (Now I have the
  271.    point of view of the compressor, just to confuse you.)  You try using
  272.    the forward vector, the backward vector, and you try averaging the
  273.    two blocks from the future and past frames, and subtracting that from
  274.    the block being coded.  If none of those work well, you can intra-
  275.    code the block.
  276.  
  277.    The sequence of decoded frames usually goes like:
  278.  
  279.    IBBPBBPBBPBBIBBPBBPB...
  280.  
  281.    Where there are 12 frames from I to I (for US and Japan anyway.)
  282.    This is based on a random access requirement that you need a
  283.    starting point at least once every 0.4 seconds or so.  The ratio
  284.    of P's to B's is based on experience.
  285.  
  286.    Of course, for the decoder to work, you have to send that first
  287.    P *before* the first two B's, so the compressed data stream ends
  288.    up looking like:
  289.  
  290.    0xx312645...
  291.  
  292.    where those are frame numbers.  xx might be nothing (if this is
  293.    the true starting point), or it might be the B's of frames -2 and
  294.    -1 if we're in the middle of the stream somewhere.
  295.  
  296.    You have to decode the I, then decode the P, keep both of those
  297.    in memory, and then decode the two B's.  You probably display the
  298.    I while you're decoding the P, and display the B's as you're
  299.    decoding them, and then display the P as you're decoding the next
  300.    P, and so on.
  301.  
  302. Q. You've got to be kidding.
  303. A. No, really!
  304.  
  305. Q. Hmm.  Where did they get 352x240?
  306. A. That derives from the CCIR-601 digital television standard which
  307.    is used by professional digital video equipment.  It is (in the US)
  308.    720 by 243 by 60 fields (not frames) per second, where the fields
  309.    are interlaced when displayed.  (It is important to note though
  310.    that fields are actually acquired and displayed a 60th of a second
  311.    apart.)  The chrominance channels are 360 by 243 by 60 fields a
  312.    second, again interlaced.  This degree of chrominance decimation
  313.    (2:1 in the horizontal direction) is called 4:2:2.  The source
  314.    input format for MPEG I, called SIF, is CCIR-601 decimated by 2:1
  315.    in the horizontal direction, 2:1 in the time direction, and an
  316.    additional 2:1 in the chrominance vertical direction.  And some
  317.    lines are cut off to make sure things divide by 8 or 16 where
  318.    needed.
  319.  
  320. Q. What if I'm in Europe?
  321. A. For 50 Hz display standards (PAL, SECAM) change the number of lines
  322.    in a field from 243 or 240 to 288, and change the display rate to
  323.    50 fields/s or 25 frames/s.  Similarly, change the 120 lines in
  324.    the decimated chrominance channels to 144 lines.  Since 288*50 is
  325.    exactly equal to 240*60, the two formats have the same source data
  326.    rate.
  327.  
  328. Q. You didn't mention anything about the audio compression.
  329. A. Oh, right.  Well, I don't know as much about the audio compression.
  330.    Basically they use very carefully developed psychoacoustic models
  331.    derived from experiments with the best obtainable listeners to
  332.    pick out pieces of the sound that you can't hear.  There are what
  333.    are called "masking" effects where, for example, a large component
  334.    at one frequency will prevent you from hearing lower energy parts
  335.    at nearby frequencies, where the relative energy vs. frequency
  336.    that is masked is described by some empirical curve.  There are
  337.    similar temporal masking effects, as well as some more complicated
  338.    interactions where a temporal effect can unmask a frequency, and
  339.    vice-versa.
  340.  
  341.    The sound is broken up into spectral chunks with a hybrid scheme
  342.    that combines sine transforms with subband transforms, and the
  343.    psychoacoustic model written in terms of those chunks.  Whatever
  344.    can be removed or reduced in precision is, and the remainder is
  345.    sent.  It's a little more complicated than that, since the bits
  346.    have to be allocated across the bands.  And, of course, what is
  347.    sent is entropy coded.
  348.  
  349. Q. So how much does it compress?
  350. A. As I mentioned before, audio CD data rates are about 1.5 Mbits/s.
  351.    You can compress the same stereo program down to 256 Kbits/s with
  352.    no loss in discernable quality.  (So they say.  For the most part
  353.    it's true, but every once in a while a weird thing might happen
  354.    that you'll notice.  However the effect is very small, and it takes
  355.    a listener trained to notice these particular types of effects.)
  356.    That's about 6:1 compression.  So, a CD MPEG I stream would have
  357.    about 1.25 MBits/s left for video.  The number I usually see though
  358.    is 1.15 MBits/s (maybe you need the rest for the system data
  359.    stream).  You can then calculate the video compression ratio from
  360.    the numbers here to be about 26:1.  If you step back and think
  361.    about that, it's little short of a miracle.  Of course, it's lossy
  362.    compression, but it can be pretty hard sometimes to see the loss,
  363.    if you're comparing the SIF original to the SIF decompressed.  There
  364.    is, however, a very noticeable loss if you're coming from CCIR-601
  365.    and have to decimate to SIF, but that's another matter.  I'm not
  366.    counting that in the 26:1.
  367.  
  368.    The standard also provides for other bit rates ranging from 32Kbits/s
  369.    for a single channel, up to 448 Kbits/s for stereo.
  370.  
  371. Q. What's phase II?
  372. A. As I said, there is a considerable loss of quality in going from
  373.    CCIR-601 to SIF resolution.  For entertainment video, it's simply
  374.    not acceptable.  You want to use more bits and code all or almost
  375.    all the CCIR-601 data.  From subjective testing at the Japan
  376.    meeting in November 1991, it seems that 4 MBits/s can give very
  377.    good quality compared to the original CCIR-601 material.  The
  378.    objective of phase II is to define a bit stream optimized for these
  379.    resolutions and bit rates.
  380.  
  381. Q. Why not just scale up what you're doing with MPEG I?
  382. A. The main difficulty is the interlacing.  The simplest way to extend
  383.    MPEG I to interlaced material is to put the fields together into
  384.    frames (720x486x30/s).  This results in bad motion artifacts that
  385.    stem from the fact that moving objects are in different places
  386.    in the two fields, and so don't line up in the frames.  Compressing
  387.    and decompressing without taking that into account somehow tends to
  388.    muddle the objects in the two different fields.
  389.  
  390.    The other thing you might try is to code the even and odd field
  391.    streams separately.  This avoids the motion artifacts, but as you
  392.    might imagine, doesn't get very good compression since you are not
  393.    using the redundancy between the even and odd fields where there
  394.    is not much motion (which is typically most of image).
  395.  
  396.    Or you can code it as a single stream of fields.  Or you can
  397.    interpolate lines.  Or, etc. etc.  There are many things you can
  398.    try, and the point of MPEG II is to figure out what works well.
  399.    MPEG II is not limited to consider only derivations of MPEG I.
  400.    There were several non-MPEG I-like schemes in the competition in
  401.    November, and some aspects of those algorithms may or may not
  402.    make it into the final standard for entertainment video compression.
  403.  
  404. Q. So what works?
  405. A. Basically, derivations of MPEG I worked quite well, with one that
  406.    used wavelet subband coding instead of DCT's that also worked very
  407.    well.  Also among the worked-very-well's was a scheme that did not
  408.    use B frames at all, just I and P's.  All of them, except maybe one,
  409.    did some sort of adaptive frame/field coding, where a decision is
  410.    made on a macroblock basis as to whether to code that one as one
  411.    frame macroblock or as two field macroblocks.  Some other aspects
  412.    are how to code I-frames--some suggest predicting the even field
  413.    from the odd field.  Or you can predict evens from evens and odds
  414.    or odds from evens and odds or any field from any other field, etc.
  415.  
  416. Q. So what works?
  417. A. Ok, we're not really sure what works best yet.  The next step is
  418.    to define a "test model" to start from, that incorporates most of
  419.    the salient features of the worked-very-well proposals in a
  420.    simple way.  Then experiments will be done on that test model,
  421.    making a mod at a time, and seeing what makes it better and what
  422.    makes it worse.  Example experiments are, B's or no B's, DCT vs.
  423.    wavelets, various field prediction modes, etc.  The requirements,
  424.    such as implementation cost, quality, random access, etc. will all
  425.    feed into this process as well.
  426.  
  427. Q. When will all this be finished?
  428. A. I don't know.  I'd have to hope in about a year or less.
  429.  
  430. Q. How do I join MPEG?
  431. A. You don't join MPEG.  You have to participate in ISO as part of a
  432.    national delegation.  How you get to be part of the national
  433.    delegation is up to each nation.  I only know the U.S., where you
  434.    have to attend the corresponding ANSI meetings to be able to
  435.    attend the ISO meetings.  Your company or institution has to be
  436.    willing to sink some bucks into travel since, naturally, these
  437.    meetings are held all over the world.  (For example, Paris,
  438.    Santa Clara, Kurihama Japan, Singapore, Haifa Israel, Rio de
  439.    Janeiro, London, etc.)
  440.  
  441. Q. Well, then how do I get the documents, like the MPEG I draft?
  442. A. MPEG is a draft ISO standard. It's exact name is ISO CD 11172.
  443.    The draft consists of three parts: System, Video, and Audio. The
  444.    System part (11172-1) deals with synchronization and multiplexing
  445.    of audio-visual information, while the Video (11172-2) and Audio
  446.    part (11172-3) address the video and the audio compression techniques
  447.    respectively.
  448.  
  449.    You may order it from your national standards body (e.g. ANSI in
  450.    the USA) or buy it from companies like
  451.      OMNICOM
  452.      phone +44 438 742424
  453.      FAX +44 438 740154
  454.  
  455. -------------------------------------------------------------------------------
  456.  
  457. From: billd@cray.com (Bill Davidson)
  458. Subject: MPEG standards documents.
  459. Date: 21 Apr 94 02:16:32 MET
  460.  
  461. I just connected to the Document Center WAIS server at wais.service.com
  462. to find out what MPEG documents cost.  This is what I found:
  463.  
  464. Title                            Pages    Price(US$)
  465. -------------------------------------------------------    -----    ----------
  466. ISO/IEC-11172-1 - PART 1: SYSTEMS, INFORMATION        60    158.75
  467.     TECHNOLOGY - CODING OF MOVING PICTURES &
  468.     ASSOCIATED AUDIO FOR
  469.  
  470. ISO/IEC-11172-2 - PART 2: VIDEO, INFORMATION TECHNOLOGY    122    204.00
  471.     - CODING MOVING PICTURES & ASSOCIATED AUDIO FOR
  472.     DIGI
  473.  
  474. ISO/IEC-11172-3 - PART 3: AUDIO, INFORMATION TECHNOLOGY    157    214.25
  475.     - CODING OF MOVING PICTURES & ASSOCIATED AUDIO
  476.     FOR D
  477.  
  478. ISO/IEC-CD-11172 - INFORMATION TECHNOLOGY - CODING OF    0    207.00
  479.     OF MOVING PICTURES & ASSOCIATED AUDIO - FOR
  480.     DIGITAL STORAGE
  481.  
  482. Is this a mistake or are standards documents really rediculously
  483. priced?  Since these would be for my own personal use, I have to pay
  484. for them out of my own personal pocket.  Just one of these eats my book
  485. budget for quite a while.
  486.  
  487. I realize that they have to make money but this has got to be about a
  488. 1000% markup over printing costs; even assuming low volumes.
  489.  
  490. Bill Davidson
  491.  
  492.  
  493. -------------------------------------------------------------------------------
  494.  I.2 | MPEG-Audio
  495. -----------------
  496.  
  497. From: "Harald Popp" <POPP@iis.fhg.de>
  498. From: mortenh@oslonett.no
  499. Date:          Fri, 25 Mar 1994 19:09:06 +0100
  500. Subject:       Merged Modified MPEG audio FAQ
  501.  
  502. Q.      What is MPEG?
  503. A.      MPEG is an ISO committee that proposes standards for 
  504.         compression of Audio and Video. MPEG deals with 3 issues: 
  505.         Video, Audio, and System (the combination of the two into one 
  506.         stream). You can find more info on the MPEG committee in other 
  507.         parts of this document. 
  508.         
  509. Q.      I've heard about MPEG Video. So this is the same compression 
  510.         applied to audio?
  511. A.      Definitely no. The eye and the ear... even if they are only a 
  512.         few centimeters apart, works very differently... The ear has 
  513.         a much higher dynamic range and resolution. It can pick out 
  514.         more details but it is "slower" than the eye.
  515.         The MPEG committee chose to recommend 3 compression methods 
  516.         and named them Audio Layer-1, Layer-2, and Layer-3. 
  517.  
  518. Q.      What does it mean exactly?
  519. A.      MPEG-1, IS 11172-3, describes the compression of audio 
  520.         signals using high performance perceptual coding schemes. 
  521.         It specifies a family of three audio coding schemes, 
  522.         simply called Layer-1,-2,-3, with increasing encoder 
  523.         complexity and performance (sound quality per bitrate). 
  524.         The three codecs are compatible in a hierarchical 
  525.         way, i.e. a Layer-N decoder is able to decode bitstream data 
  526.         encoded in Layer-N and all Layers below N (e.g., a Layer-3 
  527.         decoder may accept Layer-1,-2 and -3, whereas a Layer-2 
  528.         decoder may accept only Layer-1 and -2.)
  529.  
  530. Q.      So we have a family of three audio coding schemes. What does 
  531.         the MPEG standard define, exactly?
  532. A.      For each Layer, the standard specifies the bitstream format 
  533.         and the decoder. It does *not* specify the encoder to 
  534.         allow for future improvements, but an informative chapter 
  535.         gives an example for an encoder for each Layer.    
  536.  
  537. Q.      What have the three audio Layers in common?
  538. A.      All Layers use the same basic structure. The coding scheme can 
  539.         be described as "perceptual noise shaping" or "perceptual 
  540.         subband / transform coding". 
  541.         The encoder analyzes the spectral components of the audio 
  542.         signal by calculating a filterbank or transform and applies 
  543.         a psychoacoustic model to estimate the just noticeable 
  544.         noise-level. In its quantization and coding stage, the 
  545.         encoder tries to allocate the available number of data 
  546.         bits in a way to meet both the bitrate and masking 
  547.         requirements.
  548.         The decoder is much less complex. Its only task is to 
  549.         synthesize an audio signal out of the coded spectral 
  550.         components. 
  551.         All Layers use the same analysis filterbank (polyphase with 
  552.         32 subbands). Layer-3 adds a MDCT transform to increase 
  553.         the frequency resolution.
  554.         All Layers use the same "header information" in their 
  555.         bitstream, to support the hierarchical structure of the 
  556.         standard.   
  557.         All Layers use a bitstream structure that contains parts that 
  558.         are more sensitive to biterrors ("header", "bit 
  559.         allocation", "scalefactors", "side information") and parts 
  560.         that are less sensitive ("data of spectral components").  
  561.         All Layers may use 32, 44.1 or 48 kHz sampling frequency.
  562.         All Layers are allowed to work with similar bitrates:
  563.         Layer-1: from 32 kbps to 448 kbps
  564.         Layer-2: from 32 kbps to 384 kbps
  565.         Layer-3: from 32 kbps to 320 kbps
  566.  
  567. Q.      What are the main differences between the three Layers, from a 
  568.         global view?
  569. A.      From Layer-1 to Layer-3,
  570.         complexity increases (mainly true for the encoder),
  571.         overall codec delay increases, and
  572.         performance increases (sound quality per bitrate).
  573.  
  574. Q.      Which Layer should I use for my application?
  575. A.      Good Question. Of course, it depends on all your requirements. 
  576.         But as a first approach, you should consider the available 
  577.         bitrate of your application as the Layers have been 
  578.         designed to support certain areas of bitrates most 
  579.         efficiently, i.e. with a minimum drop of sound quality.   
  580.         Let us look a little closer at the strong domains of each 
  581.         Layer.    
  582.         
  583.         Layer-1: Its ISO target bitrate is 192 kbps per audio 
  584.         channel.
  585.         Layer-1 is a simplified version of Layer-2. It is most useful 
  586.         for bitrates around the "high" bitrates around or above 
  587.         192 kbps. A version of Layer-1 is used as "PASC" with the 
  588.         DCC recorder.
  589.  
  590.         Layer-2: Its ISO target bitrate is 128 kbps per audio 
  591.         channel.
  592.         Layer-2 is identical with MUSICAM. It has been designed as 
  593.         trade-off between sound quality per bitrate and encoder 
  594.         complexity. It is most useful for bitrates around the 
  595.         "medium" bitrates of 128 or even 96 kbps per audio 
  596.         channel. The DAB (EU 147) proponents have decided to use 
  597.         Layer-2 in the future Digital Audio Broadcasting network.   
  598.    
  599.         Layer-3: Its ISO target bitrate is 64 kbps per audio channel. 
  600.         Layer-3 merges the best ideas of MUSICAM and ASPEC. It has 
  601.         been designed for best performance at "low" bitrates 
  602.         around 64 kbps or even below. The Layer-3 format specifies 
  603.         a set of advanced features that all address one goal: to 
  604.         preserve as much sound quality as possible even at rather 
  605.         low bitrates. Today, Layer-3 is already in use in various 
  606.         telecommunication networks (ISDN, satellite links, and so 
  607.         on) and speech announcement systems. 
  608.  
  609. Q.      So how does MPEG audio work?
  610. A.      Well, first you need to know how sound is stored in a 
  611.         computer. Sound is pressure differences in air. When picked up 
  612.         by a microphone and fed through an amplifier this becomes 
  613.         voltage levels. The voltage is sampled by the computer a 
  614.         number of times per second. For CD audio quality you need to 
  615.         sample 44100 times per second and each sample has a resolution 
  616.         of 16 bits. In stereo this gives you 1,4Mbit per second
  617.         and you can probably see the need for compression.
  618.  
  619.         To compress audio MPEG tries to remove the irrelevant parts 
  620.         of the signal and the redundant parts of the signal. Parts of 
  621.         the sound that we do not hear can be thrown away. To do this 
  622.         MPEG Audio uses psychoacoustic principles.
  623.  
  624. Q.      Tell me more about sound quality. How good is MPEG audio 
  625.         compression? And how do you assess that?
  626. A.      Today, there is no alternative to expensive listening tests. 
  627.         During the ISO-MPEG-1 process, 3 international listening tests 
  628.         have been performed, with a lot of trained listeners, 
  629.         supervised by Swedish Radio. They took place in 7.90, 3.91 
  630.         and 11.91. Another international listening test was 
  631.         performed by CCIR, now ITU-R, in 92.      
  632.         All these tests used the "triple stimulus, hidden reference" 
  633.         method and the so-called CCIR impairment scale to assess the 
  634.         audio quality. 
  635.         The listening sequence is "ABC", with A = original, BC = pair 
  636.         of original / coded signal with random sequence, and the 
  637.         listener has to evaluate both B and C with a number 
  638.         between 1.0 and 5.0. The meaning of these values is:
  639.         5.0 = transparent (this should be the original signal)
  640.         4.0 = perceptible, but not annoying (first differences 
  641.               noticable)
  642.         3.0 = slightly annoying   
  643.         2.0 = annoying
  644.         1.0 = very annoying
  645.         With perceptual codecs (like MPEG audio), all traditional 
  646.         parameters (like SNR, THD+N, bandwidth) are especially 
  647.         useless. 
  648.  
  649.         Fraunhofer-IIS (among others) works on objective quality 
  650.         assessment tools, like the NMR meter (Noise-to-Mask-Ratio), 
  651.         too. If you need more informations about NMR, please 
  652.         contact nmr@iis.fhg.de
  653.  
  654. Q.      Now that I know how to assess quality, come on, tell me the 
  655.         results of these tests.
  656. A.      Well, for details you should study one of those AES papers 
  657.         listed below. One main result is that for low bitrates (60 
  658.         or 64 kbps per channel, i.e. a compression ratio of around 
  659.         12:1), Layer-2 scored between 2.1 and 2.6, whereas Layer-3 
  660.         scored between 3.6 and 3.8. 
  661.         This is a significant increase in sound quality, indeed! 
  662.         Furthermore, the selection process for critical sound material 
  663.         showed that it was rather difficult to find worst-case 
  664.         material for Layer-3 whereas it was not so hard to find 
  665.         such items for Layer-2.  
  666.         For medium and high bitrates (120 kbps or more per channel), 
  667.         Layer-2 and Layer-3 scored rather similar, i.e. even 
  668.         trained listeners found it difficult to detect differences 
  669.         between original and reconstructed signal.
  670.  
  671. Q.      So how does MPEG achieve this compression ratio?
  672. A.      Well, with audio you basically have two alternatives. Either 
  673.         you sample less often or you sample with less resolution (less 
  674.         than 16 bit per sample). If you want quality you can't do much 
  675.         with the sample frequency. Humans can hear sounds with 
  676.         frequencies from about 20Hz to 20kHz. According to the Nyquist 
  677.         theorem you must sample at least two times the highest 
  678.         frequency you want to reproduce. Allowing for imperfect 
  679.         filters, a 44,1kHz sampling rate is a fair minimum. So
  680.         you either set out to prove the Nyquist theorem is wrong or 
  681.         go to work on reducing the resolution. The MPEG committee 
  682.         chose the latter.
  683.         Now, the real reason for using 16 bits is to get a good 
  684.         signal-to-noise (s/n) ratio. The noise we're talking 
  685.         about here is quantization noise from the digitizing 
  686.         process. For each bit you add, you get 6dB
  687.         better s/n. (To the ear, 6dBu corresponds to a doubling of 
  688.         the sound level.) CD-audio achieves about 90dB s/n. This 
  689.         matches the dynamic range of the ear fairly well. That is, you 
  690.         will not hear any noise coming from the system itself (well, 
  691.         there is still some people arguing about that, but lets not 
  692.         worry about them for the moment).
  693.         So what happens when you sample to 8 bit resolution? You get 
  694.         a very noticeable noise floor in your recording. You can 
  695.         easily hear this in silent moments in the music or between 
  696.         words or sentences if your recording is a human voice. 
  697.         Waitaminnit. You don't notice any noise in loud passages, 
  698.         right? This is the masking effect and is the key to MPEG Audio 
  699.         coding. Stuff like the masking effect belongs to a science 
  700.         called psycho-acoustics that deals with the way the human 
  701.         brain perceives sound.
  702.         And MPEG uses psychoacoustic principles when it does its 
  703.         thing. 
  704.         
  705. Q.      Explain this masking effect.
  706. A.      OK, say you have a strong tone with a frequency of 1000Hz. 
  707.         You also have a tone nearby of say 1100Hz. This second tone is 
  708.         18 dB lower. You are not going to hear this second tone. It is 
  709.         completely masked by the first 1000Hz tone. As a matter of 
  710.         fact, any relatively weak sounds near a strong sound is 
  711.         masked. If you introduce another tone at 2000Hz also 18 dB 
  712.         below the first 1000Hz tone, you will hear this.
  713.         You will have to turn down the 2000Hz tone to something like 
  714.         45 dB below the 1000Hz tone before it will be masked by the 
  715.         first tone. So the further you get from a sound the less 
  716.         masking effect it has.
  717.         The masking effect means that you can raise the noise floor 
  718.         around a strong sound because the noise will be masked anyway. 
  719.         And raising the noise floor is the same as using less bits 
  720.         and using less bits is the same as compression. Do you get it?
  721.  
  722. Q.      I don't get it.
  723. A.      Well, let me try to explain how the MPEG Audio Layer-2 encoder 
  724.         goes about its thing. It divides the frequency spectrum (20Hz 
  725.         to 20kHz) into 32 subbands. Each subband holds a little slice 
  726.         of the audio spectrum. Say, in the upper region of subband 8, 
  727.         a 6500Hz tone with a level of 60dB is present. OK, the 
  728.         coder calculates the masking effect of this sound and finds 
  729.         that there is a masking threshold for the entire 8th
  730.         subband (all sounds w. a frequency...) 35dB below this tone. 
  731.         The acceptable s/n ratio is thus 60 - 35 = 25 dB. The equals 4 
  732.         bit resolution. In addition there are masking effects on band 
  733.         9-13 and on band 5-7, the effect decreasing with the distance 
  734.         from band 8.
  735.         In a real-life situation you have sounds in most bands and the 
  736.         masking effects are additive. In addition the coder considers 
  737.         the sensitivity of the ear for various frequencies. The ear 
  738.         is a lot less sensitive in the high and low frequencies. Peak 
  739.         sensivity is around 2 - 4kHz, the same region that the human 
  740.         voice occupies. 
  741.         The subbands should match the ear, that is each subband should
  742.         consist of frequencies that have the same psychoacoustic 
  743.         properties. In MPEG Layer 2, each subband is 750Hz wide 
  744.         (with 48 kHz sampling frequency). It would have been better if
  745.         the subbands were narrower in the low frequency range and 
  746.         wider in the high frequency range. That is the trade-off 
  747.         Layer-2 took in favour of a simpler approach.        
  748.         Layer-3 has a much higher frequency resolution (18 times 
  749.         more) - and that is one of the reasons why Layer-3 has a much 
  750.         better low bitrate performance than Layer-2.                
  751.         But there is more to it. I have explained concurrent masking, 
  752.         but the masking effect also occurs before and after a strong 
  753.         sound (pre- and postmasking).
  754.  
  755. Q.      Before?
  756. A.      Yes, if there is a significant (30 - 40dB ) shift in level. 
  757.         The reason is believed to be that the brain needs some 
  758.         processing time. Premasking is only about 2 to 5 ms. The 
  759.         postmasking can be up till 100ms.
  760.         Other bit-reduction techniques involve considering tonal and 
  761.         non-tonal components of the sound. For a stereo signal you 
  762.         may have a lot of redundancy between channels. All MPEG 
  763.         Layers may exploit these stereo effects by using a "joint-
  764.         stereo" mode, with a most flexible approach for Layer-3.      
  765.         Furthermore, only Layer-3 further reduces the redundancy 
  766.         by applying huffmann coding. 
  767.         
  768. Q.      What are the downside?
  769. A.      The coder calculates masking effects by an iterative process 
  770.         until it runs out of time. It is up to the implementor to 
  771.         spend bits in the least obtrusive fashion.
  772.         For Layer 2 and Layer 3, the encoder works on 24 ms of sound 
  773.         (with 1152 sample, and fs = 48 kHz) at a time. For some 
  774.         material, the time-window can be a problem. This is 
  775.         normally in a situation with transients where there are large
  776.         differences in sound level over the 24 ms. The masking is 
  777.         calculated on the strongest sound and the weak parts will 
  778.         drown in quantization noise. This is perceived as a "noise-
  779.         echo" by the ear. Layer 3 addresses this problem 
  780.         specifically by using a smaller analysis window (4 ms), if 
  781.         the encoder encounters an "attack" situation. 
  782.         
  783. Q.      Tell me about the complexity. What are the hardware demands? 
  784.  
  785. A.      Alright. First, we have to separate between decoder and 
  786.         encoder. 
  787.         Remember: the MPEG coding is done asymmetrical, with a much 
  788.         larger workload on the encoder than on the decoder.
  789.         For a stereo decoder, variuos real-time implementations exist 
  790.         for Layer-2 and Layer-3. They are either based on single-DSP 
  791.         solutions or on dedicated MPEG audio decoder chips. So
  792.         you need not worry about decoder complexity.
  793.         For a stereo Layer-2-encoder, various DSP based solutions with 
  794.         one or more DSPs exist (with different quality, also).
  795.         For a stereo Layer-3-encoder achieving ISO reference quality, 
  796.         the current real-time implementations use two DSP32C and 
  797.         two DSP56002. 
  798.         
  799. Q.      How many audio channels?
  800. A.      MPEG-1 allows for two audio channels. These can be either 
  801.         single (mono), dual (two mono channels), stereo or 
  802.         joint stereo (intensity stereo (Layer-2 and Layer-3) or m/s-
  803.         stereo (Layer-3 only)). 
  804.         In normal (l/r) stereo one channel carries the left audio 
  805.         signal and one channel carries the right audio signal. In
  806.         m/s stereo one channel carries the sum signal (l+r) and the 
  807.         other the difference (l-r) signal. In intensity stereo the 
  808.         high frequency part of the signal (above 2kHz) is combined. 
  809.         The stereo image is preserved but only the temporal envelope 
  810.         is transmitted.
  811.         In addition MPEG allows for pre-emphasis, copyright marks and
  812.         original/copy marks. MPEG-2 allows for several channels in 
  813.         the same stream.
  814.  
  815. Q.      What about the audio codec delay?
  816. A.      Well, the standard gives some figures of the theoretical 
  817.         minimum delay:
  818.         Layer-1: 19 ms (<50 ms)
  819.         Layer-2: 35 ms (100 ms)
  820.         Layer-3: 59 ms (150 ms)
  821.         The practical values are significantly above that. As they 
  822.         depend on the implementation, exact figures are hard to 
  823.         give. So the figures in brackets are just rough thumb 
  824.         values.    
  825.         Yes, for some applications, a very short delay is of critical 
  826.         importance. E.g. in a feedback link, a reporter can only talk 
  827.         intelligibly if the overall delay is below around 10 ms. 
  828.         If broadcasters want to apply MPEG audio coding, they have to 
  829.         use "N-1" switches in the studio to overcome this problem 
  830.         (or appropriate echo-cancellers) - or they have to forget 
  831.         about MPEG at all. 
  832.         But with most applications, these figures are small enough to 
  833.         present no extra problem. At least, if one can accept a Layer-
  834.         2 delay, one can most likely also accept the higher Layer-3 
  835.         delay.
  836.  
  837. Q.     OK, I am hooked on! Where can I find more technical 
  838.        informations about MPEG audio coding, especially about Layer-
  839.        3?   
  840. A.     Well, there is a variety of AES papers, e.g.
  841.  
  842.        K. Brandenburg, G. Stoll, ...: "The ISO/MPEG-Audio Codec: A 
  843.        Generic Standard for Coding of High Quality Digital Audio", 
  844.        92nd AES, Vienna 1992, pp.3336
  845.    
  846.        E. Eberlein, H. Popp, ...: "Layer-3, a Flexible Coding 
  847.        Standard",    94th AES, Berlin 93, pp.3493   
  848.    
  849.        K. Brandenburg, G. Zimmer, ...: "Variable Data-Rate Recording 
  850.        on a PC Using MPEG-Audio Layer-3", 95th AES, New York 93
  851.    
  852.        B. Grill, J. Herre,... : "Improved MPEG-2 Audio Multi-Channel 
  853.        Encoding", 96th AES, Amsterdam 94
  854.  
  855.        And for further informations, please contact layer3@iis.fhg.de
  856.  
  857. Q.     Where can I get more details about MPEG audio?
  858. A.     Still more details? No shit. You can get the full ISO spec 
  859.        from Omnicom. The specs do a fairly good job of obscuring 
  860.        exactly how these things are supposed to work... Jokes aside, 
  861.        there are no description of the coder in the specs. The specs 
  862.        describes in great detail the bitstream and suggests 
  863.        psychoacoustic models. 
  864.  
  865. Originally written by Morten Hjerde <100034,663@compuserve.com>, 
  866. modified and updated by Harald Popp (layer3@iis.fhg.de).
  867.  
  868. Harald Popp
  869. Audio & Multimedia ("Music is the *BEST*" - F. Zappa)
  870. Fraunhofer-IIS-A, Weichselgarten 3, D-91058 Erlangen, Germany
  871. Phone: +49-9131-776-340
  872. Fax:   +49-9131-776-399
  873. email: popp@iis.fhg.de
  874.  
  875. -------------------------------------------------------------------------------
  876.  I.3 | MPEG-2
  877. -------------
  878.  
  879. From: Chad Fogg <cfogg@ole.cdac.com>
  880. Date: Tue, 12 Oct 1993 06:23:40 -0700
  881. Subject: installment 2 (posted version)
  882.  
  883. OK: slapped together for your entertainment, it's the second draft 
  884. installment of the long promised MPEG-2 FAQ.   This draft is about 
  885. 50% complete.  Typos or spelling errors have not been checked yet.  
  886. Many details need to be flushed out.
  887.  
  888. If you have any additional questions or information you would like
  889. added, please E-mail to:  cfogg@cdac.com
  890.  
  891. -------------------------------------------------------------------------------
  892.  
  893. [ A short insert ... maybe important for some ... ]
  894.  
  895. From: Tom Pfeifer <pfeifer@fokus.gmd.de>
  896. Date: Fri, 29 Apr 1994 16:26:01 +0200
  897. Subject: mpeg2
  898.  
  899. Heres the number of the MPEG-2 commission draft:
  900.  
  901. Workgroup ISO/IEC JTC 1 SC29N 660
  902.  
  903. Standard ISO-CD 13818 - {1,2,3} (like usual {system, video, audio})
  904.  
  905. -------------------------------------------------------------------------------
  906.  
  907. [ And thats from Chad Fogg again ... ]
  908.  
  909. Table of questions:
  910. [near 64KB limit... to big to include in installment 2]
  911.  
  912.  
  913. Herein is not the official opionions of the MPEG "committee" members.
  914. (MPEG opinions are self-cancelling---linear superposition theory).
  915.  
  916. Q. What are the important themes of MPEG video?
  917. A. [Other than those introduced by Mark Adler...]
  918.    
  919.     1. Application specific. MPEG does not solve everybody's application
  920.     needs, but offers a syntax that is a good solution for most. MPEG 
  921.     does not, for example, decorrelate energies situated 1/256th 
  922.     of a pixel between a non-linear combination of 1000 frames.
  923.     The syntax was designed to occupy an optimum between cost and quality
  924.     ... in other words, between computational complexity (VLSI area, memory 
  925.     size and bandwidth) and compaction (compression) efficiency. 
  926.    
  927.     2. The DCT and Huffman algorithms are some of the least significant 
  928.     aspects of the standard, and yet somehow receive the most press 
  929.     coverage. MPEG-2 made its greatest improvements through enhancement 
  930.     of prediction.
  931.  
  932.     3. In the encoding algorithm, you can do what you want as long as the 
  933.     bistreams produced are compliant.  There is a huge difference in 
  934.     picture quality between, for example, the test model and real-world 
  935.     propriety implementions of encoding. 
  936.     
  937. Q. Can MPEG-1 encode higher sample rates than 352 x 240 x 30 Hz ?
  938.  
  939. A. Yes.  The MPEG-1 syntax permits sampling dimensions as high as
  940.    4095 x 4095 x 60 frames per second.    The MPEG most people think
  941.    of as "MPEG-1" is actually a kind of subset known as Constrained 
  942.    Parameters Bitstream (CPB).
  943.  
  944. Q. What are Constrained Parameters Bitstreams?
  945.  
  946. A. CPB are a limited set of sampling and bitrate parameters designed
  947.    to normalize computational complexity, buffer size, and memory bandwidth
  948.    while still addressing the widest possible range of applications.
  949.    CPB limits video to 396 macroblocks (101,376 pixels) per frame if the
  950.    frame rate is less than or equal to 25 fps (frames per second), and 330 
  951.    macroblocks (84,480 pixels) per frame if the frame rate is less or 
  952.    equal to 30 fps.  Therefore, MPEG video is typically coded at SIF
  953.    dimensions (352 x 240 x 30fps  or 352 x 288 x 25 fps).
  954.  
  955.    The total maximum sampling rate is 3.8 Ms/s (million samples/sec) 
  956.    including chroma.  The coded video rate is limited to 1.862 Mbit/sec. 
  957.    In industrial practice, the bitrate is the most often waived parameter 
  958.    of CPB, with rates as high as 6 Mbit/sec in use.
  959.  
  960. Q. Why is Constrained Parameters so important?
  961. A. It is an optimum point that allows (just barely) cost effective VLSI 
  962.    implementations in 1992 technology (0.8 microns).  It also implies a 
  963.    nominal guarantee of interoperability for decoders and encoders.  MPEG
  964.    devices which are not capable of meeting SIF rates are not canonically
  965.    considered to be true MPEG.
  966.  
  967. Q. Are there ways of getting around constrained parameters bitstreams
  968.    for SIF class applications and decoders ?
  969. A. Yes, some.  Remember that CPB limits frames to 396 macroblocks
  970.    (as in 352 x 288 SIF frames). 416 x 240 x 24 Hz sampling rates are 
  971.    still within the constraints, but this only aids NTSC (240 lines/field)
  972.    displays.  Deviating from 352 samples/line could throw off many decoder 
  973.    implementations that have limited horizontal sample rate conversion
  974.    modes. Due to chip die size constraints (most chips barely pack in the
  975.    neccessary features), many decoders use simple doubling, e.g. 352 to 704 
  976.    samples/line via binary taps which are simple shift-and-add operations. 
  977.    Future MPEG decoders will have arbitrary sample rate convertors on-chip.
  978.    Also remember that the 1.86 Mbit/sec limit is often ignored in real life.
  979.  
  980.  
  981. Q. What is MPEG-2 Video Main Profile and Main Level?
  982.  
  983. A. MPEG-2 Video Main Level is analogous to MPEG-1's CPB, with sampling limits 
  984.    at CCIR 601 parameters (720 x 480 x 30 Hz).  Profiles limit syntax 
  985.    (i.e. algorithms), whereas Levels limit parameters (sample rates, frame 
  986.    dimensions, coded bitrates, etc.).  Together,  Video Main Profile and Main 
  987.    Level (abbreviated as MP@ML) normalize complexity within feasible limits 
  988.    of 1994 VLSI technology (0.5 micron), yet still meet the needs of the 
  989.    majority of application users.  
  990.      
  991.  
  992.   Level      Max. sampling     Pixels/  Max.     Significance
  993.              dimensions   fps  sec      bitrate           
  994.   ---------  ----------------  -------  -------  --------------------------
  995.   Low         352 x  240 x 30   3.05 M   4 Mb/s  CIF, consumer tape equiv.
  996.   Main        720 x  480 x 30  10.40 M  15 Mb/s  CCIR 601, studio TV
  997.   High 1440  1440 x 1152 x 30  47.00 M  60 Mb/s  4x 601, consumer HDTV
  998.   High       1920 x 1080 x 30  62.70 M  80 Mb/s  production SMPTE 240M std
  999.  
  1000. Note 1: pixel rate and luminance (Y) sample rate are equivalent.
  1001.      2: Low Level is similar MPEG-1's Constrained Parameters Bitstreams.
  1002.            
  1003.   Profile  Comments
  1004.   -------  -----------------------------------------------------------
  1005.   Simple   Same as Main, only without B-pictures.  Intended for software 
  1006.            applications, perhaps CATV.
  1007.   Main     Most decoder chips, CATV, satellite. 95% of users.
  1008.   Main+    Main with Spatial and SNR scalability       
  1009.   Next     Main+ with 4:2:2 marcoblocks
  1010.                                 
  1011.  
  1012.                                 Profile
  1013.  
  1014.   Level         Simple          Main            Main+           Next
  1015.   ------------  --------------  --------------  --------------  ------------
  1016.   High          illegal                         illegal         4:2:2 chroma
  1017.   High-1440     illegal                         With spatial    4:2:2 chroma
  1018.                                                 Scalablity
  1019.   Main                          90% of users    Main with SNR   4:2:2 chroma
  1020.                                                 scalability
  1021.   Low           illegal                         Main with SNR   illegal
  1022.                                                 scalabiliy                                                                        
  1023.    [Subject to change at whim of MPEG Requirements sub-group]
  1024.  
  1025. Q. How do you tell a MPEG-1 bitstream from a MPEG-2 bistream?
  1026. A. All MPEG-2 bistreams must have certain extension headers that
  1027.    *immediately* follow MPEG-1 headers.  At the highest layer,
  1028. END ---------------------- CUT HERE --------------------- 1/6
  1029.