home *** CD-ROM | disk | FTP | other *** search
/ ftp.pasteur.org/FAQ/ / ftp-pasteur-org-FAQ.zip / FAQ / mpeg-faq / part3 / text0000.txt < prev   
Encoding:
Text File  |  1996-11-10  |  54.9 KB  |  1,306 lines

  1. Archive-name: mpeg-faq/part3
  2. Last-modified: 1996/06/02
  3. Version: v 4.1 96/06/02
  4. Posting-Frequency: bimonthly
  5.  
  6. frame
  7. Field predicted
  8. 1. a low-cost encoder which only possesses frame 
  9. motion estimation may use dct_type to decorrelate 
  10. the prediction error of a prediction which is 
  11. inherently field by characteristic
  12.  
  13. 2. an intelligent encoder realizes that it is more bit 
  14. efficient to signal frame prediction with field 
  15. dct_type for the prediction error, than it is to signal 
  16. a field prediction.
  17.  
  18. field
  19. Field predicted
  20. A typical scenario.  A field prediction tends to form a 
  21. field-correlated prediction error.
  22.  
  23. frame
  24. Frame predicted
  25. A typical scenario.  A frame prediction tends to form a 
  26. frame-correlated prediction error.
  27.  
  28. field
  29. Frame predicted
  30. Makes little sense. If the encoder went through the 
  31. trouble of finding a field prediction in the first place, 
  32. why select frame organization for the prediction error?
  33.  
  34.  
  35. prediction modes now include field, frame, Dual Prime, and 16x8 MC.
  36. The combinations for Main Profile and  Simple Profile are shown below.
  37.  
  38. Frame pictures
  39. motion_type
  40. motion 
  41. vectors 
  42. per MB
  43. fundamental 
  44. prediction block 
  45. size (after half-
  46. pel)
  47. interpretation
  48.  
  49. Frame
  50. 1
  51. 16x16
  52. same as MPEG-1, with possibly different 
  53. treatment of prediction error via dct_type
  54.  
  55. Field
  56. 2
  57. 16x8
  58. Two independently coded predictions are 
  59. made: one for the 8 lines which correspond 
  60. to the top field, another for the 8 bottom 
  61. field lines.
  62.  
  63. Dual Prime
  64. 1
  65. 16x8
  66. Two independently coded predictions are 
  67. made: one for the 8 lines which correspond 
  68. to the top field, another for the 8 bottom 
  69. field lines.  Uses averaging of two 16x8 
  70. prediction blocks from fields of opposite 
  71. parity to form a prediction for the top and 
  72. bottom 8 lines.  A second vector is derived 
  73. from the first vector coded in the bitstream.
  74.  
  75.  
  76.  
  77. Field pictures
  78. motion_type
  79. motion 
  80. vectors 
  81. per MB
  82. fundamental 
  83. prediction block 
  84. size (after half-
  85. pel)
  86. interpretation
  87.  
  88. Field
  89. 1
  90. 16x16
  91. same as MPEG-1, with possibly different 
  92. treatment of prediction error via dct_type
  93.  
  94. 16x8
  95. 2
  96. 16x8
  97. Two independently coded predictions are 
  98. made: one for the 8 lines which correspond 
  99. to the top field, another for the 8 bottom 
  100. field lines.
  101.  
  102. Dual Prime
  103. 1
  104. 16x16
  105. A single prediction is constructed from the 
  106. average of two 16x16 predictions taken from 
  107. fields of opposite parity.
  108.  
  109.  
  110.  
  111. concealment motion vectors can be transmitted in the headers of intra
  112. macroblocks to help error recovery.  When the macroblock data that the
  113. concealment motion vectors are intended for becomes corrupt, these
  114. vectors can be used to specify a concealment 16x16 area to be extracted
  115. from the previous picture.  These vectors do not affect the normal
  116. decoding process, except for motion vector predictions.
  117.  
  118. Additional chroma_format  for 4:2:2 and 4:4:4 pictures.  Like MPEG-1,
  119. Main Profile syntax is strictly limited to 4:2:0 format, however, the
  120. 4:2:2 format is the basis of the 4:2:2 Profile (aka Studio Profile).
  121. In 4:2:2 mode, all syntax essentially remains the same except where
  122. matters of block count are concerned.  A coded_block_pattern extension
  123. was added to handle signaling of the extra two prediction error
  124. blocks.  The 4:4:4 format is currently undefined in any Profile.
  125.  
  126. chroma_format
  127. multiplex order within Macroblock
  128. Application
  129.  
  130. 4:2:0  (6 blocks)
  131. YYYYCbCr
  132. main stream television, consumer entertainment.
  133.  
  134. 4:2:2  (8 blocks)
  135. YYYYCbCrCbCr
  136. studio production environments, professional 
  137. editing equipment, distribution and servers
  138.  
  139. 4:4:4 (12 blocks)
  140. YYYYCbCrCbCrCbCrCbCr
  141. computer graphics
  142.  
  143.  
  144.  
  145. Non-linear macroblock quantization was introduced in MPEG-2 to increase
  146. the precision of quantization at high bit rates, while increasing the
  147. dynamic range for low bit rate use where  larger step size is needed.
  148. The quantization_scale_code may be selected between a linear (MPEG-1
  149. style) or non-linear scale on a picture (frame or field) basis. The new
  150. non-linear range corresponds to a dynamic range of 0.5 to 54 with
  151. respect to the linear (MPEG-1 style) range of 1 to 31.
  152.  
  153.  
  154. Block:
  155.  
  156. alternate scan  introduced a new run-length entropy scanning pattern
  157. generally more efficient for the statistics of interlaced video
  158. signals. Zig-zag scan is the appropriate choice for progressive
  159. pictures.
  160.  
  161. intra_dc_precision: the MPEG-1 DC value is mandatory quantized to a
  162. precision of 8 bits.  MPEG-2 introduced 9, 10, and 11 bit precision set
  163. on a picture basis to increase the accuracy of the DC component, which
  164. by very nature, has the most significant contribution towards picture
  165. quality.  Particularly useful at high bit rates to reduce
  166. posterization. Main and Simple Profiles are limited to 8, 9, or 10 bits
  167. of precision.  The 4:2:2 High Profile, which is geared towards higher
  168. bitrate applications (up to 50 Mbits/sec), permits all values (up to 11
  169. bits).
  170.  
  171. separate quantization matrices for Y and C: luminance (Y) and
  172. chrominance (Cb,Cr) share a common intra and non-intra DCT coefficient
  173. quantization 8x8 matrix in MPEG-1 and MPEG-2 Main and Simple Profiles.
  174. The 4:2:2 Profile permits separate quantization matrices to be
  175. downloaded for the luminance and chrominance blocks.  Cb and Cr still
  176. share a common matrix.
  177.  
  178. intra_vlc_format:  one of two tables may now be selected at the picture
  179. layer for variable length codes (VLCs) of AC run-length symbols in
  180. Intra blocks.  The first table is identical to that specified for
  181. MPEG-1 (dc_coef_next). The newer second table is more suited to the
  182. statistics of Intra coded blocks, especially in I- frames.  The best
  183. illustration between Table 0 and Table 1is the length of the symbol
  184. which represents End of Block (EOB).  In Table zero, EOB is 2 bits.  In
  185. Table one, it is 4 bits.  The implication is that the EOB symbol is
  186. 2^-n probable within the block, or from an alternative perspective,
  187. there are an average of 3 to 4 non-zero AC coefficients in Non-intra
  188. blocks, and 9 to 16 coefficients in Intra blocks.  The VLC tree of
  189. Table 1 was intended to be a subset of Table 0, to aid hardware
  190. implementations.  Both tables have 113 VLC entries (or events).
  191.  
  192. escape: When no entry in the VLC exists for a AC Run-Level symbol, an
  193. escape code can be used to represent the symbol. Since there are only
  194. 63 positions within an 8x8 block following the first coefficient, and
  195. the dynamic range of the quantized DCT coefficients is [-2047,+2048],
  196. there are (63*2047), or 128,961 possible combinations of Run and Level
  197. (the sign bit of the Level follows the VLC).  Only the 113 most common
  198. Run-Level symbols are represented in Table 0 or Table 1.  The length of
  199. the escape symbol (which is always 6 bits) plus the Run and Level
  200. values in MPEG-1 could be 20 or 28 bits in length.  The 20 bit escape
  201. describes levels in the range [-127,+127].  The 28 bit double escape
  202. has a range of [-255, +255].  MPEG-2 increased the span to the full
  203. dynamic range of quantized IDCT coefficients, [-2047, +2047] and
  204. simplified the escape mechanism with a single representation for this
  205. event.   The total length of the MPEG-2 escape codeword is 24 bits (6
  206. bit VLC followed by a 6-bit Run value, and 12 bit Level value).  It was
  207. an assumption by MPEG-1 designers that no quantized DCT coefficient
  208. would need greater representation than 10 bits [-255,+255].  Note:
  209. MPEG-2 escape mechanism does not permit the value -2048 to be
  210. represented.
  211.  
  212. mismatch control:  The arithmetic results of all stages are defined
  213. exactly by the normative MPEG decoding process, with the single
  214. exception of the Inverse Discrete Cosine Transform (IDCT). This stage
  215. can be implemented with a wide variety of IDCT implementations.  Some
  216. are more suited for software, others for programmable hardware, and
  217. others still for hardwired hardware designs. The IDCT reference formula
  218. in the MPEG specification would, if directly implemented, consume at
  219. least 1024 multiply and 1024 addition operations for every block. A
  220. wide variety of fast algorithms exist which can reduce the count to
  221. less than 200 multiplies and 500 adds per block by exploiting the
  222. innate symmetry of the cosine basis functions. A typical fast IDCT
  223. algorithm would be dwarfed by the cost of the other decoder stages
  224. combined. Each fast IDCT algorithm has different quantization error
  225. statistics (fingerprint), although subtle when the precision of the
  226. arithmetic is, for example, at least 16-bits for the transform
  227. coefficients and 24-bits for intermediate dot product values.
  228. Therefore, MPEG cannot standardize a single fast IDCT algorithm. The
  229. accuracy can be defined only statistically.  The IEEE 1180
  230. recommendation (December 1990) defines the error tolerance between an
  231. ideal direct-matrix floating point implementation (a direct
  232. implementation of the MPEG reference formula) and the test IDCT.
  233.  
  234. Mismatch control attempts to reduce the drift between different IDCT
  235. algorithms by eliminating bit patterns which statistically have the
  236. greatest contribution towards mismatches between the variety of
  237. methods. The reconstructions of two decoders will begin to diverge over
  238. time since their respective IDCT designs will reconstruct occasional,
  239. slightly different 8x8 blocks.
  240.  
  241. MPEG-1s mismatch control method is known canonicially as Oddification,
  242. since it forces all quantized DCT coefficients to negative values. It
  243. is a slight improvement over its predecessor in H.261.  MPEG-2 adopted
  244. a different method called, again canonically, LSB Toggling, further
  245. reducing the likelihood of mismatch. Toggling affects only the Least
  246. Significant Bit (LSB) of the 63rd AC DCT coefficient (the highest
  247. frequency in the DCT matrix).  Another significant difference between
  248. MPEG-1 and MPEG-2 mismatch control is, in MPEG-1, oddification is
  249. performed on the quantized DCT coefficients, whereas in MPEG-2,
  250. toggling is performed on the DCT coefficients after inverse
  251. quantization.  MPEG-1s mismatch control method favors programmable
  252. implementation since a block of DCT coefficients when quantized.
  253.  
  254. Sample:
  255. The two chrominace pictures (Cb, Cr) possess only half the resolution
  256. in both the horizontal and vertical direction as the luminance picture
  257. (Y).  This is the definition of the 4:2:0 chroma format. Most
  258. television displays require that at least the vertical chrominance
  259. resolution matches the luminance (4:2:2 chroma format). Computer
  260. displays may further still demand that the horizontal resolution also
  261. be equivalent (4:4:4 chroma format). There are a variety of filtering
  262. methods for interpolating the chrominance samples to match the sample
  263. density of luminance. However, the official location or center of the
  264. lower resolution chrominance sample should influence the filter design
  265. (relative taps weights), otherwise the chrominance plane can appear to
  266. be shifted by a fractional sample in the wrong direction.
  267.  
  268. The subsampled MPEG-1 chroma position has a center exactly half way
  269. between the four nearest neighboring luminance samples.  To be
  270. consistent with the subsampled chrominance positions of 4:2:2
  271. television signals, MPEG-2 moved the center of the chrominance samples
  272. to be co-located horizontally with the luminance samples.
  273.  
  274.  
  275. Misc.:
  276.  
  277. copyright_id extension can identify whether a sequence or subset of
  278. frames within the sequence is copyrighted, and provides a unique 64-bit
  279. copyright_id_number registered with the ISO/IEC.
  280.  
  281. Syntax can now signal frame sizes as large as 16383 x 16383. Since
  282. MPEG-1 employed a meager 12-bits to describe horizontal_size and
  283. vertical_size , the range was limited to 4095x4095.  However, MPEGs
  284. Levels prescribe important interoperability points for practical
  285. decoders. Constrained Parameters MPEG-1 and MPEG-2 Low Level limit the
  286. sample rate to 352x240x30 Hz.  MPEG-2s Main Level defines the limit at
  287. 720x480x30 Hz. Of course, this is simply the restriction of the dot
  288. product of horizontal_size, vertical_size, and frame_rate. The Level
  289. also places separate restrictions on each of the these three
  290. variables.
  291.  
  292. Reflecting the more television oriented manner of MPEG-2, the optional
  293. sequence_display_extension() header can specify the chromaticy of the
  294. source video signal as it was prior to representation by MPEG syntax.
  295. This information includes: whether the original video_format was
  296. composite or component, the opto-electronic transfer_characteristics,
  297. and RGB->YCbCr matrix_coefficients. The picture_display_extension()
  298. provides more localized source composite video characteristics on a
  299. frame by frame basis (not field-by-field), with the syntax elements:
  300. field_sequence, sub_carrier_phase, and burst_amplitude.  This
  301. information can be used by the displays post-processing stage to
  302. reproduce a more refined display sequence.
  303.  
  304. Optional pan & scan syntax was introduced which tells a decoder on a
  305. frame-by-frame basis how to, for example, window a 4:3 image within the
  306. wider 16:9 aspect ratio of the coded frame.  The vertical pan offset
  307. can be specified to within 1/16th pixel accuracy.
  308.  
  309. <IMG SRC="mpeg2pan.gif">
  310.  
  311.  
  312. How does MPEG syntax facilitate parallelism ?
  313.  
  314. For MPEG-1, slices may consist of an arbitrary number of macroblocks.
  315. They can be independently decoded once the picture header side
  316. information is known. For parallelism below the slice level, the coded
  317. bitstream must first be mapped into fixed-length elements.  Further,
  318. since macroblocks have coding dependencies on previous macroblocks
  319. within the same slice, the data hierarchy must be pre-processed down to
  320. the layer of DC DCT coefficients.  After this, blocks may be
  321. independently inverse transformed and quantized, temporally predicted,
  322. and reconstructed to buffer memory.  Parallelism is usually more of a
  323. concern for encoders.  In many encoders today, block matching (motion
  324. estimation) and some rate control stages (such as activity and/or
  325. complexity measures) are processed for macroblocks independently.
  326. Finally, with the exception that all macroblock rows in Main Profile
  327. MPEG-2 bitstreams must contain at least one slice, an encoder has the
  328. freedom to choose the slice structure.
  329.  
  330. What is the MPEG color space and sample precision?
  331.  
  332. MPEG strictly specifies the YCbCr color space, not YUV or YIQ or YPbPr
  333. or YDrDb or any other many fine varieties of color difference spaces.
  334. Regardless of any bitstream parameters, MPEG-1 and MPEG-2 Video Main
  335. Profile specify the 4:2:0 chroma_format, where the color difference
  336. channels (Cb, Cr) have half the "resolution" or sample grid density in
  337. both the horizontal and vertical direction with respect to luminance.
  338.  
  339. MPEG-2 High Profile includes an option for 4:2:2 chroma_format, as does
  340. the MPEG 4:2:2 Profile (a.k.a.  Studio Profile) naturally. Applications
  341. for the 4:2:2 format can be found in professional broadcasting,
  342. editing,  and contribution-quality distribution environments.  The
  343. drawback of the 4:2:2 format is simply that it increases the size of
  344. the macroblock from six 8x8 blocks (4:2:0) to eight, while increasing
  345. the frame buffer size and decoding bandwidth by the same amount (33
  346. %).  This increase places the buffering memories well past the magic
  347. 16-Mbit limit for semiconductor DRAM devices, assuming the pictures are
  348. stored with a maximum of  414,720 pixels (720 pixels/line x 576
  349. lines/frame).  The maximum allowable pixel resolution could be reduced
  350. by 1/3 to compensate (e.g. 544 x 576). However, if a hardware decoders
  351. operate on a macroblock basis in the pipeline, on-chip static memories
  352. (SRAM) will increase by 1/3.  The benefits offered by 1/3 more pixels
  353. generally outweighs full vertical chrominance resolution. Other
  354. arguments favoring 4:2:0 over 4:2:2 include:
  355.  
  356.   Vertical decimation increases compression efficiency by reducing
  357.   syntax overhead posed in an 8 block (4:2:2) macroblock structure.
  358.  
  359.   You're compressing the hell out of the video signal, so what possible
  360.   difference can the 0:0:2 chromiance high-pass make?
  361.  
  362. Is 4:2:0 the same as 4:1:1 ?
  363.  
  364. No, no, definitely no.  The following table illustrates the nuances
  365. between the different chroma formats for a frame with pixel dimensions
  366. of 720 pixels/line x 480 lines/frame.
  367.  
  368. CCIR 601 (60 Hz) image          Chroma sub-sampling factors
  369. format  Y               Cb, Cr  Vertical        Horizontal
  370.  
  371.  
  372. chroma 
  373. format
  374. pixels/
  375. line
  376. Y
  377. lines/
  378. frame
  379. Y
  380. pixels/
  381. line
  382. Cb, Cr
  383. lines/
  384. frame
  385. Cb, Cr
  386. horizontal 
  387. subsampling 
  388. factor
  389. vertical 
  390. subsampling 
  391. factor
  392.  
  393. 4:4:4
  394. 720
  395. 480
  396. 720
  397. 480
  398. none
  399. none
  400.  
  401. 4:2:2
  402. 720
  403. 480
  404. 360
  405. 480
  406. 2:1
  407. none
  408.  
  409. 4:2:0
  410. 720
  411. 480
  412. 360
  413. 240
  414. 2:1
  415. 2:1
  416.  
  417. 4:1:1
  418. 720
  419. 480
  420. 180
  421. 480
  422. 4:1
  423. none
  424.  
  425. 4:1:0
  426. 720
  427. 480
  428. 180
  429. 120
  430. 4:1
  431. 4:1
  432.  
  433.  
  434. 3:2:2, 3:1:1, and 3:1:0 are less common variations, but have been
  435. documented.  As shocking as it may seem, the 4:1:0 ratio was used by
  436. Intels DVI for several years.
  437.  
  438. The 130 microsecond gap between successive 4:2:0 lines in progressive
  439. frames, and 260 microsecond gap in interlaced frames, can introduce
  440. some difficult vertical frequencies, but most can be alleviated through
  441. pre- processing.
  442.  
  443. What is the sample precision of MPEG ?  How many colors 
  444. can MPEG represent ?
  445.  
  446. By definition, MPEG samples have no more and no less than 8-bits
  447. uniform sample precision (256 quantization levels).  For luminance
  448. (which is unsigned) data, black corresponds to level 0, white is level
  449. 255.  However, in CCIR recommendation 601 chromaticy, luminance (Y)
  450. levels 0 through 14 and 236 through 255 are reserved for blanking
  451. signal excursions. MPEG currently has no such clipped excursion
  452. restrictions, although decoder might take care to insure active samples
  453. do not exceed these limits.  With three color components per pixel, the
  454. total combination is roughly 16.8 million colors (i.e. 24-bits).
  455.  
  456.  
  457. How are the subsampled chroma samples cited ?
  458.  
  459.  
  460. It is moderately important to properly co-site chroma samples,
  461. otherwise a sort of chroma shifting effect (exhibited as a halo) may
  462. result when the reconstructed video is displayed.  In MPEG-1 video, the
  463. chroma samples are exactly centered between the 4 luminance samples
  464. (Fig 1.)   To maintain compatibility with the CCIR 601 horizontal
  465. chroma locations and simplify implementation (eliminate need for phase
  466. shift), MPEG-2 chroma samples are arranged as per Fig.2.
  467.  
  468.   Y   Y   Y   Y             Y   Y   Y   Y            YC  Y   YC  Y
  469.    C       C                C         C
  470.   Y   Y   X   Y             Y   Y   Y   Y            YC  Y   YC  Y
  471.  
  472.   Y   Y   Y   Y             Y   Y   Y   Y            YC  Y   YC  Y
  473.     C       C               C         C
  474.   Y   Y   Y   Y             Y   Y   Y   Y            YC  Y   YC  Y
  475.  
  476.   Fig.1 MPEG-1               Fig.2  MPEG-2           Fig.3 MPEG-2 and 
  477.  4:2:0 organization         4:2:0 organization         CCIR Rec. 601
  478.                                                      4:2:2 organization
  479.  
  480.  
  481. How do you tell an MPEG-1 bitstream from an MPEG-2 
  482. bitstream ?
  483.  
  484. A. All MPEG-2 bitstreams must contain specific extension headers that
  485. immediately follow MPEG-1 headers.  At the highest layer, for example,
  486. the MPEG-1 style sequence_header() is followed by sequence_extension().
  487. Some extension headers are specific to MPEG-2 profiles.  For example,
  488. sequence_scalable_extension()  is not allowed in Main Profile
  489. bitstreams.
  490.  
  491. A simple program need only scan the coded bitstream for byte-aligned
  492. start codes to determine whether the stream is MPEG-1 or MPEG-2.
  493.  
  494. What are start codes? 
  495.  
  496. These 32-bit byte-aligned codes provide a mechanism for cheaply
  497. searching coded bitstreams for commencement of various layers of video
  498. without having to actually parse variable-length codes or perform any
  499. decoder arithmetic.  Start codes also provide a mechanism for
  500. resynchronization in the presence of bit errors.  A start code may be
  501. preceded by an arbitrary number of zero bytes.  The zero bytes can be
  502. use to guarantee that a start code occurs within a certain location, or
  503. by rate control to increase the bitrate of a coded bitstream.
  504.  
  505. Coded block pattern 
  506.  
  507.  Coded block pattern:
  508. (CBP --not to be confused with Constrained Parameters!)  When the frame
  509. prediction is particularly good, the displaced frame difference(DFD, or
  510. temporal macroblock prediction error) tends to be small, often with
  511. entire block energy being reduced to zero after quantization.  This
  512. usually happens only at low bit rates.  Coded block patterns prevent
  513. the need for transmitting EOB symbols in those zero coded blocks.
  514. Coded block patterns are transmitted in the macroblock header only if
  515. the macrobock_type flag indicates so.
  516.  
  517. Why is the DC value always divided by 8 ?
  518.  
  519. Clarification point: The DC value of Intra coded blocks is quantized by
  520. a constant stepsize of 8 only in MPEG-1, rendering the 11-bit dynamic
  521. range of the IDCT DC coefficient to 8-bits of accuracy. MPEG-2 allows
  522. for DC precision of 8, 9, 10, or 11 bits.  The quantization stepsize is
  523. fixed for the duration of the picture, set by the intra_dc_precision
  524. flag in the picture_extension_header().
  525.  
  526. Why is there a special VLC for  DCT_coefficient_first:?
  527.  
  528. Since the coded_block_pattern in NON-INTRA macroblocks signals every
  529. possible combination of all-zero valued and non-zero blocks, the
  530. dct_coef_first mechanism assigns a different meaning to the VLC
  531. codeword (run = 0, level =+/- 1) that would otherwise represent EOB
  532. (10) as the first coefficient in the zig-zag ordered Run-Level token
  533. list.
  534.  
  535. WhatÆs the deal with  End of Block ?
  536.  
  537. Saves unnecessary run-length codes.  At optimal bitrates, there tends
  538. to be few AC coefficients concentrated in the early stages of the
  539. zig-zag vector. In MPEG-1, the 2-bit length of EOB implies that there
  540. is an average of only 3 or 4 non-zero AC coefficients per block.  In
  541. MPEG-2 Intra (I) pictures, with a 4-bit EOB code in Table 1, this
  542. estimate is between 9 and 16 coefficients. Since EOB is required for
  543. all coded blocks, its absence can signal that a syntax error has
  544. occurred in the bitstream.
  545.  
  546. WhatÆs  this ôMacroblock stuffing,ö dammit ?:
  547.  
  548. A genuine pain for VLSI implementations, macroblock stuffing was
  549. included in MPEG-1 to maintain smoother, constant bitrate control for
  550. encoders.  However, with normalized complexity/activity measures and
  551. buffer management performed a priori (before coding of the macroblock,
  552. for example) and local monitoring of coded data buffer levels now a
  553. common operation in encoders, (e.g. MPEG-2 encoder Test Model), the
  554. need for such localized bitrate smoothing evaporated. Stuffing can be
  555. achieved through slice start code padding if required. A good rule of
  556. thumb is: if you find often yourself wishing for stuffing more than
  557. once per slice, you probably don't have a very good rate control
  558. algorithm.  Nonetheless, to avoid any temptation, macroblock stuffing
  559. is now illegal in MPEG-2  (A general syntax restriction brought to you
  560. by the Implementation Studies Subgroup!)
  561.  
  562. WhatÆs the deal with slice_vertical_position and 
  563. macroblock_address_increment?
  564.  
  565. The absolute position of the first macroblock within a slice is known
  566. by the combination of slice_vertical_position and the
  567. macroblock_address_increment.  Therefore, the proper place of a lost
  568. slice found in a highly corrupt bitstream can be located exactly within
  569. the picture.  These two syntax elements are also the only known means
  570. of detecting slice gaps----areas of the picture which are not
  571. represented with any information (including skipped macroblocks).  A
  572. slice gap occurs when the current macroblock address of the first
  573. macroblock in a slice is greater than the previous macroblock address
  574. by more than 1 macroblock unit. A slice overlap occurs when the current
  575. macroblock address is less than or equal to the previous macroblocks
  576. address.  The previous macroblock in both instances is the last known
  577. macroblock within the previous slice. Because of the semantic
  578. interpretation of slice gaps and overlaps, and because of the syntactic
  579. restrictions for slice_vertical_position and
  580. macroblock_address_increment, it is not syntactically possible for a
  581. skipped macroblock to be represented in the first and last positions of
  582. a slice.  In the past, some (bad) encoders would attempt to signal a
  583. run of skipped macroblocks to the end of the slice. These evil skipped
  584. macroblocks should be interpreted by a compliant decoder as a gap, not
  585. as a string of skipped macroblocks.
  586.  
  587. What is meant by modified Huffman VLC tables:
  588.  
  589. The VLC tables in MPEG are not Huffman tables in the true sense of
  590. Huffman coding, but are more like the tables used in Group 3 fax. They
  591. are entropy constrained, that is, non-downloadable and optimized for a
  592. limited range of bit rates (sweet spots).  A better way would be to say
  593. that the tables are optimized for a range of ratios of bit rate to
  594. sample rate (e.g. 0.25 bits/pixel to 1.0 bits/pixel). With the
  595. exception of a few codewords, the larger tables were carried over from
  596. the H.261 standard drafted in the year 1990. This includes the AC
  597. run-level symbols, coded_block_pattern, and macroblock_address_increment.  
  598. MPEG-2 added an "Intra table," also called "Table 1".  Note that the
  599. dct_coefficient tables assume positive/negative coefficient PMF
  600. symmetry.
  601.  
  602.  
  603. How does MPEG handle 3:2 pulldown?
  604.  
  605. MPEG-1 video decoders had to decide for themselves when to perform 3:2
  606. pulldown if it was not indicated in the presentation time stamps (PTS)
  607. of the Systems layer bitstream.  MPEG-2 provides two flags
  608. (repeat_first_field, and top_field_first) which explicitly describe
  609. whether a frame or field is to be repeated. In progressive sequences,
  610. frames can be repeated 2 or 3 times.  Simple and Main Profile limit are
  611. limited to repeated fields only.  It is a general syntactic restriction
  612. that repeat_first_field can only be signaled (value ==1) in a frame
  613. structured picture.  It makes little sense to repeat field pictures in
  614. an interlaced video signal since the whole process of 3:2 pulldown
  615. conversion was meant to convert progressive, film sequences to the
  616. display frame rate of interlaced television.
  617.  
  618. In the most common scenario, a film sequence will contain 24 frames
  619. every second.  The bit_rate element in the sequence header will
  620. indicate 30 frames/sec, however.  On average, every other coded frame
  621. will signal a repeat field (repeat_first_field==1) to pad the frame
  622. rate from 24 Hz to 30 Hz:
  623.  
  624.  
  625. (24 coded frames/sec)*(2 fields/coded frame)*(5 display fields/4 coded
  626.   fields) = 30 display frames/sec
  627.  
  628.  
  629. After all this standardization, whatÆs left for research?
  630.  
  631.  
  632. A . Despite the fact that a comprehensive worldwide standard now exists
  633. for digital video, many areas remain wide open for research:  advanced
  634. encoding and pre-processing, motion estimation, macroblock decision
  635. models, rate control and buffer management in editing environments,
  636. implementation complexity reduction, etc. Many areas have yet to be
  637. solved ... (and discovered)..
  638.  
  639. Are some encoders better than others ?
  640.  
  641. A. Definitely. For example, the motion estimation search range of a
  642. has  great influence over final picture quality.  At a certain point a
  643. very large range can actually become detrimental (it may encourage
  644. large differential motion vectors). Practical ranges are usually
  645. between  +/- 15 and +/- 32.  As the range doubles, for instance, the
  646. search area quadruples. (like the classic relationship between in
  647. increase in linear vs. area).
  648.  
  649. Rate control marks a second tell-tale area where some encoders perform
  650. significantly better than others.
  651.  
  652. And finally, the degree of "pre-processing" (now a popular buzzword in
  653. the business) signals that the encoder belongs to an elite marketing
  654. class.
  655.  
  656.  
  657. Is the encoder standardized ?
  658.  
  659. A. The encoder rests just outside the normative scope of the standard,
  660. as long as the bitstreams it produces are compliant.  The decoder,
  661. however, is almost deterministic: a given bitstream should reconstruct
  662. to a unique set of pictures. However, since the IDCT  function is the
  663. ONLY non-normative stage in the decoder, an occasional error of a Least
  664. Significant Bit per prediction iteration is permitted. The designer is
  665. free to choose among many DCT algorithms and implementations.  The IEEE
  666. 1180 test referenced in Annex A of the MPEG-1 (ISO/IEC 11172-2) and
  667. MPEG-2 (ISO/IEC 13818-2) Video specifications spells out the
  668. statistical mismatch tolerance between the Reference IDCT, which is a
  669. separable 8x1 "Direct Matrix" DCT implemented with 64-bit floating
  670. point accuracy, and the IDCT you are testing for compliance.
  671.  
  672.  
  673. What is the TM (Test Model) ?
  674. What is the TM rate control and adaptive quantization technique ?
  675.  
  676. A. The Test model (MPEG-2) and Simulation Model (MPEG-1) were not, by
  677. any stretch of the imagination, meant to epitomize state-of-the art
  678. encoding quality.  They were, however, designed to exercise the syntax,
  679. verify proposals, and test the relative compression performance of
  680. proposals in a timely manner that could be duplicated by
  681. co-experimenters.  Without simplicity, there would have been no doubt
  682. endless debates over model interpretation.  Regardless of all else,
  683. more advanced techniques would probably trespass into proprietary
  684. territory.
  685.  
  686. The final test model for MPEG-2 is TM version 5b, a.k.a. TM version 6,
  687. produced in March 1993 (the time when the MPEG-2 video syntax was
  688. frozen). The final MPEG-1 simulation model is version 3 (SM-3).  The
  689. MPEG-2 TM rate control method offers a dramatic improvement over the SM
  690. method.  TM adds more accurate estimation of macroblock complexity
  691. through use of limited  a priori information. Macroblock quantization
  692. adjustments are computed on a macroblock basis, instead of
  693. once-per-macroblock row (which in the SM-3 case consisted of an entire
  694. slice).
  695.  
  696. How does the TM work?
  697.  
  698. Rate control and adaptive quantization are divided into three steps:
  699.  
  700. Step One: Target Bit Allocation
  701.  
  702. In Complexity Estimation, the global complexity measures assign
  703. relative weights to each picture type (I,P,B).  These weights (Xi, Xp,
  704. Xb) are reflected by the typical coded frame size of I, P, and B
  705. pictures (see typical frame size discussion). I pictures are usually
  706. assigned the largest weight since they have the greatest stability
  707. factor in an image sequence and contain the most new information in a
  708. sequence.  B pictures are assigned the smallest weight since B energy
  709. do not propagate into other pictures and are usually more highly
  710. correlated with neighboring P and I pictures than P pictures are.
  711.  
  712. The bit target for a frame is based on  the frame type, the remaining
  713. number of bits left in the Group of Pictures (GOP) allocation, and the
  714. immediate statistical history of previously coded pictures (sort of a
  715. moving average global rate control, if you will).
  716.  
  717. Step Two:       Rate Control via Buffer Monitoring
  718.  
  719. Rate control attempts to adjust bit allocation if there is significant
  720. difference between the target bits (anticipated bits) and actual coded
  721. bits for a block of data.  If the virtual buffer begins to overflow,
  722. the macroblock quantization step size is increased, resulting in a
  723. smaller yield of coded bits in subsequent macroblocks. Likewise, if
  724. underflow begins, the step size is decreased.   The Test Model
  725. approximates that the target picture has spatially uniform distribution
  726. of bits.  This is a safe approximation since spatial activity and
  727. perceived quantization noise are almost inversely proportional.  Of
  728. course, the user is free to design a custom distribution,  perhaps
  729. targeting more bits in areas that contain more complex yet highly
  730. perceptible data such as text.
  731.  
  732. Step Three:     Adaptive Quantization
  733.  
  734. The final step modulates the macroblock quantization step size obtained
  735. in Step 2 by a local activity measure. The activity measure itself is
  736. normalized against the most recently coded picture of the same type (I,
  737. P, or B). The activity for a macroblock is chosen as the minimum among
  738. the four 8x8 block luminance variances.  Choosing the minimum block is
  739. part of the concept that a macroblock is no better than the block of
  740. highest visible distortion (weakest link in the chain).
  741.  
  742. Decision:
  743. [deferred to later date]
  744.  
  745. Can motion vectors be used to determine object velocity?
  746.  
  747. Motion vector information cannot be reliably used as a means of
  748. determining object velocity unless the encoder model specifically set
  749. out to do so.  First, encoder models that optimize picture quality
  750. generate vectors that typically minimize prediction error and,
  751. consequently, the vectors often do not represent true object
  752. translation from picture-to-picture.  Standards converters that
  753. resample one frame rate to another (as in NTSC to PAL) use different
  754. methods (motion vector field estimation, edge detection, et al) that
  755. are not concerned with Rate-Distortion theory. Second, motion vectors
  756. are not transmitted for all macroblocks anyway.
  757.  
  758. Is it possible to code interlaced video with MPEG-1 syntax?
  759.  
  760. A. Two methods can be applied to interlaced video that maintain
  761. syntactic compatibility with MPEG-1 (which was originally designed for
  762. progressive frames only).  In the field concatenation method, the
  763. encoder model can carefully construct predictions and prediction errors
  764. that realize good compression but maintain field integrity (distinction
  765. between adjacent fields of opposite parity). Some pre-processing
  766. techniques can also be applied to the interlaced source video that
  767. would, e.g., lessen sharp vertical frequencies.
  768.  
  769. This technique is not terribly efficient of course.  On the other hand,
  770. if the original source was progressive (e.g. film), then it is more
  771. trivial to convert the interlaced source to a progressive format before
  772. encoding.  (MPEG-2 would then only offer slightly superior performance
  773. through such MPEG-2 enhancements as greater DC coefficient precision,
  774. non-linear mquant, intra VLC, etc.) Reconstructed frames are usually
  775. re- interlaced in the Display process following the decoding stages.
  776.  
  777. The second syntactically compatible method codes fields as separate
  778. pictures. Rumors have spread that this approach does not quiet work
  779. nearly as well as the pretend its really a frame method.
  780.  
  781. Can MPEG be used to code still frames ?
  782.  
  783. Yes.  MPEG Intra pictures are similar to baseline sequential JPEG pictures.
  784.  
  785. There are, of course, advantages and disadvantages to using MPEG over
  786. JPEG to represent still pictures.
  787.  
  788. Disadvantages:
  789.  
  790. 1. MPEG has only one color space (YCbCr)
  791.  
  792. 2. MPEG-1 and MPEG-2 Main Profile luma and chroma share quanitzation
  793. and VLC tables (4:2:0 chroma_format)
  794.  
  795. 3. MPEG-1 is syntactically limited to 4k x 4k images, and 16k x 16k for MPEG-2.
  796.  
  797. Advantages:
  798.  
  799. 1. MPEG possesses adaptive quantization which permits better rate
  800. control and spatial masking.
  801.  
  802. 2. With its limited still image syntax,  MPEG averts any temptation to
  803. use unnecessary, expensive, and academic encoding methods that have
  804. little impact on the overall picture quality (you know who you are).
  805.  
  806. 3. Philips' CD-I spec. has a requirement for a MPEG still frame mode,
  807. with double SIF image resolution.  This is technically feasible mostly
  808. thanks to the fact that only one picture buffer is needed to decode a
  809. still image instead of the 2.5 to 3 buffers needed for IPB sequences.
  810.  
  811.  
  812. Why was the 8x8 DCT size chosen?
  813.  
  814.  A. Experiments showed little compaction gains could be achieved with
  815.  larger transform sizes, especially in light of the increased
  816. implementation complexity. A fast DCT algorithm will require roughly
  817. double the number of arithmetic operations per sample when the linear
  818. transform point size is doubled. Naturally, the best compaction
  819. efficiency has been demonstrated using locally adaptive block sizes
  820. (e.g. 16x16, 16x8,  8x8, 8x4, and 4x4) [See Gary Sullivan and Rich
  821. Baker "Efficient Quadtree  Coding of Images and Video," ICASSP 91, pp
  822. 2661-2664.].
  823.  
  824. Inevitably, adaptive block transformation sizes introduce additional
  825. side information overhead while forcing the decoder to implement
  826. programmable or hardwired recursive  DCT algorithms. If the DCT size
  827. becomes too large, then more edges (local discontinuities) and the like
  828. become absorbed into the transform block, resulting in wider
  829. propagation of Gibbs (ringing) and other unpleasant phenomena.
  830. Finally, with larger transform sizes, the DC term is  even more
  831. critically sensitive to quantization noise.
  832.  
  833. Why was the 16x16 prediction size chosen?
  834.  
  835. The 16x16 area corresponds to the Least Common Multiple (LCM) of 8x8
  836. blocks, given the normative 4:2:0 chroma ratio. Starting with medium
  837. size images, the 16x16 area provides a good balance between side
  838. information overhead & complexity and motion compensated prediction
  839. accuracy.  In gist, experiments showed that the 16x16 was a good
  840. trade-off between complexity and coding efficiency.
  841.  
  842. What do B-pictures buy you?
  843.  
  844. A. Since bi-directional macroblock predictions are an average of two
  845. macroblock areas, noise is reduced at low bit rates (like a 3-D filter,
  846. if you will).  At nominal MPEG-1 video (352 x 240 x 30, 1.15 Mbit/sec)
  847. rates, it is said that B-frames improves SNR by as much as 2 dB. (0.5
  848. dB gain is usually considered worth-while in MPEG). However, at higher
  849. bit rates, B- frames become less useful since they inherently do not
  850. contribute to the  progressive refinement of an image sequence (i.e.
  851. not used as prediction by subsequent coded frames).  Regardless,
  852. B-frames are still politically controversial.
  853.  
  854. B pictures are interpolative in two ways: 1. predictions in the
  855. bi-directional macroblocks are an average from block areas of two
  856. pictures 2. B pictures "fill in" like a digital spackle the immediate
  857. 3-D video signal without contributing to the overall signal quality
  858. beyond that immediate point in time.  In other words, a B picture,
  859. regardless of its internal make-up of macroblock types, has a life
  860. limited only to itself.  As mentioned before, B picture energy does not
  861. propagate into other frames.  In a sense, bits spent on B pictures are
  862. wasted.
  863.  
  864. Why do some people hate B-frames?
  865.  
  866. A. Computational complexity, bandwidth, end-to-end delay, and picture
  867. buffer size are the four B-frame Pet Peeves. Computational complexity
  868. in the decoder is  increased since some macroblock modes require
  869. averaging between two block predictions (macroblock_motion_forward==1
  870. && macroblock_motion_backward==1).
  871.  
  872. Worst case, memory bandwidth is increased an extra 15.2 MByte/s
  873. (assuming 4:2:0 chroma_format at Main Level), not including any half
  874. pel or page-mode overhead) for this extra directional prediction. To
  875. really rub it in, an extra picture buffer is needed to store the future
  876. reference picture (backwards prediction frame).  Finally, an extra
  877. picture delay is introduced in the decoder since the frame used for
  878. backwards prediction needs to be transmitted to the decoder and
  879. reconstructed before the intermediate B-pictures in display order can
  880. be decoded.
  881.  
  882. Cable television have been particularly adverse to B-frames since, for
  883. CCIR 601 rate video, the extra picture buffer pushes the decoder DRAM
  884. memory requirements past the magic 8- Mbit (1 Mbyte) threshold into the
  885. evil realm of 16 Mbits (2 Mbyte).---- although 8-Mbits is fine for 352
  886. x 480 B picture sequence. However, cable often forgets that DRAM does
  887. not come in convenient high-volume (low cost) 8- Mbit packages as does
  888. friendly 4-Mbit and 16-Mbit packages.  In a few years, the cost
  889. difference between 16 Mbit and 8 Mbit will become insignificant
  890. compared to the bandwidth savings gain through higher compression.  For
  891. the time being, some cable boxes will start with 8-Mbit and allow
  892. future drop-in upgrades to the full 16-Mbit.
  893.  
  894.  
  895. How are interlaced and progressive pictures indicated in 
  896. MPEG?
  897.  
  898. The following tree may help illustrate the possible layers of
  899. progressive and interlaced coding modes:
  900.  
  901.  
  902.  
  903.           MPEG-2 sequence
  904.          /               \
  905.   progressive            interlaced sequence
  906.   sequence                 /            \
  907.                    Field picture        Frame picture
  908.                                         /         \
  909.                                        /           \
  910.                  Frame or field prediction     Frame MB prediction only
  911.                    /               \
  912.                Field dct           Frame dct 
  913.  
  914.  
  915.  
  916. What does it mean to be compliant with MPEG ?
  917.  
  918. There are two areas of conformance/compliance in MPEG:
  919.  
  920. 1. Compliant bitstreams
  921. 2. Compliant decoders
  922.  
  923. Technically speaking, video bitstreams consisting entirely of I-frames
  924. are syntactically compliant with the MPEG specification.  The I-frame
  925. sequence simply utilizes a rather limited subset of the full syntax.
  926. Compliant bitstreams must obey the range limits (e.g. motion vectors
  927. ranges, bit rates, frame rates, buffer sizes) and permitted syntax
  928. elements in the bitstream (e.g. chroma_format, B-pictures, etc).
  929.  
  930. Decoders, however, must be able to decode all combinations of legal
  931. bitstreams.. For example, a decoder which is incapable of decoding P or
  932. B frames is definitely not a Main Profile or Constrained Parameters
  933. decoder! Likewise, full arithmetic precision must be obeyed before any
  934. decoder can be called "MPEG compliant."   The IDCT, inverse quantizer,
  935. and motion compensated predictor must meet the accuracy requirements
  936. defined in the MPEG document. Real-time conformance is more complicated
  937. to measure than arithmetic precision, but it reasonable to expect that
  938. decoders that skip frames on reasonable bitstreams are not likely to be
  939. considered compliant.
  940.  
  941. What are Profiles and Levels?
  942.  
  943. A. MPEG-2 Video Main Profile and Main Level is analogous to MPEG-1's
  944. CPB, with  sampling limits at CCIR 601 parameters (720x480x30 Hz  or
  945. 720x576x24 Hz).  "Profiles" limit syntax (i.e. algorithms), whereas
  946. "Levels" limit coding parameters (sample rates, frame dimensions, coded
  947. bitrates, etc.). Together, Video Main Profile and Main Level
  948. (abbreviated as MP@ML) normalize complexity within feasible limits of
  949. 1994 VLSI technology (0.5 micron), yet still meet the needs of the
  950. majority of applications. MP@ML is the conformance point for most cable
  951. and satellite TV systems.
  952.  
  953. [insert a description of each Profiles and Levels here]
  954.  
  955. Can MPEG-1 encode higher sample rates than 352 x 240 x 30 Hz ?
  956.  
  957. A. Yes. The MPEG-1 syntax permits sampling dimensions as high as 4095 x
  958. 4095 x 60 frames per second.  The MPEG most people think of as "MPEG-1"
  959. is really a kind of subset known as Constrained Parameters bitstream
  960. (CPB).
  961.  
  962. What are Constrained Parameters Bitstreams?
  963.  
  964. MPEG-1 CPB are a limited set of sampling and bitrate parameters
  965. designed to normalize decoder computational complexity, buffer size,
  966. and memory bandwidth while still addressing the widest possible range
  967. of  applications. The parameter limits were intentionally designed to
  968. permit decoder implementations integrated with 4 Megabits (512 Kbytes)
  969. of DRAM.
  970.  
  971. Bitstream Parameter
  972. Limit 
  973.  
  974. pixels/line
  975. 704
  976.  
  977. lines/frame
  978. 480 or 576
  979.  
  980. pixels/frame
  981. 101,376 pixels
  982.  
  983. pixels/second
  984. 2,534,400
  985.  
  986. frames/sec
  987. 30 Hz
  988.  
  989. bit rate
  990. 1.86 Mbit/sec
  991.  
  992. buffer size
  993. 40 Kbytes
  994.  
  995.  
  996. The sampling limits of CPB are bounded at the ever popular SIF rate:
  997. 396 macroblocks (101,376 pixels) per picture if the picture rate is
  998. less than or equal to 25 Hz, and 330 macroblocks (84,480 pixels) per
  999. picture if the picture rate is 30 Hz. The MPEG nomenclature loosely
  1000. defines a pixel or "pel" as a unit vector containing a complete
  1001. luminance sample and one fractional (0.25 in 4:2:0 format) sample from
  1002. each of the two chrominance (Cb and Cr) channels. Thus, the
  1003. corresponding bandwidth figure can be computed as:
  1004.  
  1005.      352 samples/line x 240 lines/picture x 30 pictures/sec x 1.5
  1006.      samples/pixel
  1007.  
  1008.  or 3.8 Ms/s (million samples/sec) including chroma, but not including
  1009.  blanking intervals.  Since most decoders are capable of sustaining VLC
  1010. decoding at a faster rate than 1.8 Mbit/sec, the coded video bitrate
  1011. has become the most often waived parameter of CPB. An encoder which
  1012. intelligently employs the syntax tools should achieve SIF quality
  1013. saturation at about 2 Mbit/sec, whereas an encoder producing streams
  1014. containing  only I (Intra) pictures might require as much as 8 Mbit/sec
  1015. to achieve the same video quality.
  1016.  
  1017. Why is Constrained Parameters so important?
  1018.  
  1019.  A. It is an optimum point that allows (just barely) cost effective
  1020.  VLSI implementations in 1992 technology (0.8 microns).  It also
  1021. implies a nominal guarantee of interoperability for decoders and a
  1022. reasonable class of performance for encoders.  Since CPB is the most
  1023. popular canonical MPEG-1 conformance point, MPEG devices which are not
  1024. capable of at least meeting SIF rates are usually not considered to be
  1025. true MPEG by industry.
  1026.  
  1027.  Picture buffers (i.e. "frame stores") and coded data buffering
  1028.  requirements for MPEG-1 CPB fit just snugly into 4 Mbit of memory
  1029. (DRAM).
  1030.  
  1031. Who uses constrained parameters bitstreams?
  1032.  
  1033. A. Principal CPB applications are Compact Disc video (White Book or
  1034. CD-I) and desktop video.  Set-top TV decoders fall into a higher
  1035. sampling rate category known as "CCIR 601" or "Broadcast rate," which
  1036. as a rule of   thumb, has sampling dimensions and bandwidth 4 times
  1037. that of SIF (Constrained Parameter sample rate limit).
  1038.  
  1039. Are there ways of circumventing constrained parameters bitstreams for
  1040. SIF  class applications and decoders ?
  1041.  
  1042.  A. Yes, some.  Remember that CPB limits pictures by macroblock count
  1043.  (or pixels/frame). 416 x 240 x 24 Hz sampling rates are still within
  1044. these constraints. Deviating from 352 samples/line could throw off many
  1045. decoder implementations which possess limited horizontal sample rate
  1046. conversion abilities. Some decoders do in fact  include a few rate
  1047. conversion modes, with a filter usually implemented via binary taps
  1048. (shifts and adds).  Likewise, the target sample rates are usually
  1049. limited or ratios (e.g. 640, 540, 480 pixels/line, etc.).  Future MPEG
  1050. decoders will likely include on-chip arbitrary sample rate converters,
  1051. perhaps capable of operating in the vertical direction (although there
  1052. is little need of this in applications using standard TV monitors where
  1053. line count is constant, with the possible exception of windowing in
  1054. cable box graphical user interfaces).
  1055.  
  1056. Also, many CD videos are letterboxed at the 16:9 aspect ratio.  The
  1057. actual coded and display sampling dimensions are 384 x 216 (note
  1058. 384/216 = 16/9).  These programs are typically movies coded at the more
  1059. manageable 24 frames/sec.
  1060.  
  1061. Are there any other conformance points like CPB for MPEG-1?
  1062.  
  1063.  A. Undocumented ones, yes.  A second generation of decoder chips
  1064.  emerged on the market   about 1 year after the first wave of SIF-class
  1065. decoders.  Both LSI Logic and SGS-Thomson introduced CCIR 601 class
  1066. MPEG-1 video decoders to fill in the gap between canonical MPEG-1 (SIF)
  1067. and the emergence of Main Profile at Main Level (CCIR 601) MPEG-2
  1068. decoders.  Under non-disclosure agreement, C-Cube had the  CL- 950,
  1069. although since Q2'94, the CL-9100 is now the full MPEG-2 successor in
  1070. production.  MPEG-1 decoders in the CCIR 601 class, or Main Level, were
  1071. all too often called MPEG-1.5 or MPEG-1++ decoders.  For the first year
  1072. of operation, the Direct Broadcasting Satellite service in the United
  1073. States (Hughes Direct TV and Hubbards USSB) called only upon MPEG-1
  1074. syntax to represent interlaced video before switching to full MPEG-2
  1075. syntax.
  1076.  
  1077. What frame rates are permitted in MPEG?
  1078.  
  1079. A limited set is available for the choosing in MPEG-1 and the currently
  1080. defined set of Profiles and Levels of MPEG-2, although "tricks" could
  1081. be played with Systems-layer Time Stamps to convey non-standard picture
  1082. rates.  The set is: 23.976 Hz (3-2 pulldown NTSC), 24 Hz (Film),  25 Hz
  1083. (PAL/SECAM or 625/60 video), 29.97 (NTSC), 30 Hz (drop-frame NTSC  or
  1084. component 525/60), 50 Hz (double-rate PAL), 59.97 Hz (double rate
  1085. NTSC),  and 60 Hz (double-rate, drop-frame NTSC/component 525/60
  1086. video).
  1087.  
  1088. Only 23.976, 24, 25, 29.97, and 30 Hz are within the conformance space
  1089. of Constrained Parameter Bitstreams and Main Level.
  1090.  
  1091.  
  1092. What areas can be improved upon to create a better syntax 
  1093. than MPEG?
  1094.  
  1095. Several  improvements can be made to the MPEG syntax while remaining
  1096. within the framework of block based coding. As implementation
  1097. technology improves with time, the ratio of computation to sample rate
  1098. can be increased for the same implementation cost. With each
  1099. evolutionary stage in the shrinking of the semiconductor lithography
  1100. process (line width), more complex coding methods become economically
  1101. realizable. Some of the well-known or well-anticipated areas for
  1102. improvement are described below:
  1103.  
  1104. Intra coding:
  1105. For intra pictures, subband methods such as wavelets combined with
  1106. improved quantization and entropy coders could gain as much as 2-4 dB
  1107. over MPEG Intra pictures.  The problem becomes more complex when
  1108. considering the coding of Intra Macroblocks in mixed pictures, such as
  1109. P or B, since the extend of a subband must, in the simplest of
  1110. schemes,  be limited to the dimensions of a macroblock.
  1111.  
  1112.  
  1113. Prediction error coding
  1114. One of the strongest gripes against MPEG is the use of the DCT for
  1115. decorrelation of prediction error blocks.  One explanation is that the
  1116. DCT is suited for the statistical correlation of intra signals, but
  1117. less suited for the statistics of prediction error (Non-Intra) signals.
  1118. One common proposal is to replace the DCT with a Vector Quantizer.
  1119. Prediction error (Non-intra) blocks typically contain far fewer bits
  1120. than intra blocks.  (The bits that comprise a Non-intra blocks can be
  1121. thought of as having been previously distributed over previous blocks
  1122. in previous pictures in the form of coefficients and side
  1123. information...)
  1124.  
  1125. Finer coding unit granularityÆs:
  1126. The size of the transform block could be made smaller, larger, or both
  1127. (myriad of different sizes).  Likewise, the size of the motion
  1128. compensation block can be made larger or smaller.  The cost is more
  1129. complex semantics (more decoder complexity) and the overhead bits to
  1130. select the block size.  Instead of sharing the same side information,
  1131. the blocks within the macroblock could be assigned their own motion
  1132. vectors, macroblock quantization scale factors, etc.
  1133.  
  1134. Many advanced techniques were in investigated by MPEG during the
  1135. formative stages of the specification, but were eventually eliminated
  1136. for falling below a threshold set for coding gain vs. implementation
  1137. complexity. Often, proposals presented a significant departure from the
  1138. main stream algorithms under consideration. Each bit added to the
  1139. syntax, or rule added to the semantics represents several gates to a
  1140. silicon implementation, or from a software perspective, an extra table,
  1141. if-then or case statement at multiple points in the decoding program.
  1142.  
  1143.  
  1144.  
  1145. What are the similarities and differences between MPEG and 
  1146. H.263
  1147.  
  1148. During its formative stages, H.263 was known as "H.26P" or "H.26X". It
  1149. is an ITU-T standard for low-bitrate video and audio teleconferencing.
  1150. It is designed to be more efficient (at least 2dB) than H.261 for bit
  1151. rates below 64 kbits/sec (ISDN B channel).  The primary target bit
  1152. rate, approximately 27,000 bits/sec,  is the payload rate of the V.34
  1153. (a.k.a "V.Fast" or "V.Last") modem standard.  In a typical scenario, 20
  1154. kbit/sec would be allocated for the video portion, and 6.5 kbit/sec for
  1155. the speech portion.
  1156.  
  1157. Since the H.261 syntax was defined in 1990, techniques and
  1158. implementation power have naturally improved.  H.263 collects many of
  1159. the advanced  methods proposed during MPEGs formative stages into a
  1160. syntax which shares a common basis more with MPEG-1 video than with
  1161. H.261.
  1162.  
  1163. The detailed differences and similarities are summarized below:
  1164.  
  1165. Sample rate, precision, and color space:
  1166. H.263 pictures are transmitted with QCIF dimensions.  MPEG and JPEG
  1167. allow nearly any picture size to be described in the headers.  A fixed
  1168. picture size promotes interoperability by forcing all implementors to
  1169. operate at a common rate, rather than by allowing implementors to get
  1170. away with whatever lowest sample rate the consumer can be tricked into
  1171. buying.  Another reason for a fixed sample rate is that, unlike MPEG
  1172. which is generic, H.263 is geared towards a specific application
  1173. (teleconferencing).  Other MPEG applications such as CD Video and Cable
  1174. TV define their own fixed parameters. Chromaticy is again YCbCr, 4:2:0
  1175. macroblock structure, and 8 bits of uniform sample precision.
  1176.  
  1177. [details deferred]
  1178.  
  1179.  
  1180.  
  1181. How would you describe MPEG to the Data Compression 
  1182. expert?
  1183.  
  1184. A. MPEG video is a block-based coding scheme.
  1185.  
  1186.  
  1187. How does MPEG video really compare to TV, VHS, laserdisc ?
  1188.  
  1189. A. VHS picture quality can be achieved for film source video at about 1
  1190. million bits per second (with careful application of proprietary
  1191. encoding methods).  Objective comparison of  MPEG to VHS is complex.
  1192. The luminance response curve of VHS places -3 dB (50% response, the
  1193. common definition of bandlimit) at around analog 2 MHz (digital
  1194. equivalent to 200 samples/line). VHS chroma is considerably less dense
  1195. in the horizontal direction than MPEG's 4:2:0 signal (compare 80
  1196. samples/line equivalent to 176 !!).  From a sampling density
  1197. perspective, VHS is superior only in the vertical direction (480
  1198. luminance lines compared to 240).  When other analog factors are taken
  1199. into account, such as interfield crosstalk and the TV monitor Kell
  1200. factor, the perceptual vertical advantage becomes much less than 2:1.
  1201. VHS is also prone to such inconveniences as timing errors (an annoyance
  1202. addressed by time base correctors), whereas digital video is fully
  1203. discretized. Duplication processes for pre-recorded VHS tapes at high
  1204. speeds (5 to 15 times real time playback speed)  introduces additional
  1205. handicaps. In gist, MPEG-1 at its nominal parameters can match VHSs
  1206. sexy low-pass-filtered look, but for critical sequences, is probably
  1207. overall inferior to a well mastered, well duplicated VHS tape.
  1208.  
  1209. With careful coding schemes, broadcast NTSC quality can be approximated
  1210. at about 3 Mbit/sec, and PAL quality at about 4 Mbit/sec for film
  1211. source video.  Of course, sports  sequences with complex spatial-
  1212. temporal activity should be treated with higher bit rates, in the
  1213. neighborhood of  5 and 6 Mbit/sec. Laserdisc is perhaps the most
  1214. difficult medium to make comparisons with.
  1215.  
  1216. First, the video signal encoded onto a laserdisc is composite, which
  1217. lends the signal to the familiar set of artifacts (reduced color
  1218. accuracy of YIQ, moirse patterns, crosstalk, etc).  The medium's
  1219. bandlimited signal is often defined by laserdisc player manufacturers
  1220. and main stream publications as capable of rendering up to 425 TVL (or
  1221. frequencies with Nyquist at 567 samples/line). An equivalent component
  1222. digital representation would therefore have sampling dimensions of 567
  1223. x 480 x  30 Hz. The carrier-to-noise ratio of a laserdisc video signal
  1224. is typically better  than 48 dB.  Timing accuracy is excellent,
  1225. certainly better than VHS.  Yet some of the clean characteristics of
  1226. laserdisc can be simulated with MPEG-1 signals as low as 1.15 Mbit/sec
  1227. (SIF rates),  especially for those areas of medium detail (low spatial
  1228. activity) in the presence of uniform motion (affine motion vector
  1229. fields). The appearance of laserdisc or Super VHS quality can therefore
  1230. be obtained for many video sequences with low bit rates, but for the
  1231. more general class of images sequences, a bit rate ranging from 3 to 6
  1232. Mbit/sec is necessary.
  1233.  
  1234.  
  1235. What are the typical coded sizes for the MPEG frames?
  1236.  
  1237. Typical bit sizes for the three different picture types:
  1238. Level
  1239. I
  1240. P
  1241. B
  1242. Average
  1243.  
  1244. 30 Hz SIF
  1245. @ 1.15 Mbit/sec
  1246. 150,000
  1247. 50,000
  1248. 20,000
  1249. 38,000
  1250.  
  1251. 30 Hz CCIR 601
  1252. @ 4 Mbit/sec
  1253. 400,000
  1254. 200,000
  1255. 80,000
  1256. 130,000
  1257.  
  1258.  
  1259. Note: the above example is taken from a standard test sequence coded by
  1260. the Test Model method, with an I frame distance of 15 (N = 15), and a P
  1261. frame distance of 3 (M = 3).
  1262.  
  1263. Of course, among differing source material, scene changes, and use of
  1264. advanced encoder models these numbers can be significantly different.
  1265.  
  1266. At what bitrates is MPEG-2 video optimal? 
  1267.  
  1268. The Test subgroup has defined a few example "Sweet spot" sampling
  1269. dimensions and bit rates for MPEG-2:
  1270.  
  1271. Dimensions
  1272. Coded rate
  1273. Application
  1274.  
  1275. 352x480x24 Hz 
  1276. (progressive)
  1277. 2 Mbit/sec
  1278. Equivalent to VHS quality.  Intended for film source video. Half 
  1279. horizontal 601(HHR).  Looks almost broadcast NTSC quality
  1280.  
  1281. 544x480x30 Hz 
  1282. (interlaced).
  1283. 4 Mbit/sec
  1284. PAL broadcast quality (nearly full capture of 5.4 MHz luminance 
  1285. signal).  544 samples matches the width of a 4:3 picture windowed 
  1286. within 720 sample/line 16:9 aspect ratio via pan&scan
  1287.  
  1288. 704x480x30 
  1289. Hz.(interlaced)
  1290. 6 Mbit/sec
  1291. Full CCIR 601 sampling dimensions
  1292.  
  1293.  
  1294. These numbers may be too ambitious.  Bit rates of 3, 6, and 8 Mbit/sec
  1295. respectively provide transparent quality for the above application
  1296. examples when generated by a reasonably sophisticated encoder.
  1297.  
  1298. Why does film perform so well with MPEG ?
  1299.  
  1300.  
  1301. 1. The frame rate is 24 Hz (instead of 30 Hz) which is a savings of
  1302. some 20%.
  1303.  
  1304. 2. Film source video is inherently progressive.  Hence no fussy
  1305. interlaced spectral frequencies.
  1306.