home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #20 / NN_1992_20.iso / spool / comp / dsp / 2131 < prev    next >
Encoding:
Internet Message Format  |  1992-09-08  |  2.4 KB

  1. Xref: sparky comp.dsp:2131 comp.compression.research:156
  2. Path: sparky!uunet!wupost!sdd.hp.com!swrinde!network.ucsd.edu!qualcom.qualcomm.com!qualcom!rdippold
  3. From: rdippold@qualcom.qualcomm.com (Ron Dippold)
  4. Newsgroups: comp.dsp,comp.compression.research
  5. Subject: Re: Looking for telephone quality audio compression
  6. Message-ID: <rdippold.716077895@qualcom>
  7. Date: 9 Sep 92 22:31:35 GMT
  8. References: <BuBn7u.BFu@news.cso.uiuc.edu>
  9. Sender: news@qualcomm.com
  10. Organization: Qualcomm, Inc., San Diego, CA
  11. Lines: 38
  12. Nntp-Posting-Host: qualcom.qualcomm.com
  13.  
  14. ja51359@uxa.cso.uiuc.edu (axelrod) writes:
  15. >    I'm looking for a audio compression algorithm that will result
  16. >in telephone quality reproduction.  I.E.  4Khz bandwidth, limited dynamic
  17. >range, average S/N ratio.
  18. >    I'm already familiar with using delta-fibonacci, delta-huffman
  19. >techniques, but I'm looking for a more lossy algorithm that will give
  20. >better compression results, more like on the order of 8:1 with 8-bit
  21. >samples.
  22. >    How is the quality of CELP compression?  I heard voices end up
  23. >sounding robotic.  I'd like something that sounds natural.
  24.  
  25. Our version of CELP, QCELP, sounds quite decent.  If things aren't
  26. tuned just right, voices can get a "sharpness" to them.  To my ear it
  27. sounds superior to standard telephone, and those I've called have been
  28. unable to tell when I'm calling with the desk phone and with the
  29. cellular phone unless we introduced plenty of noise into the system
  30. (at which time the voice starts sounding somewhat "bubbly" as the
  31. noise overwhelms our error correction).
  32.  
  33. We output 192 bits per 20 millisecond frame which works out to 1200
  34. bytes per second, or 4.3 megabytes per hour of speech.  In addition,
  35. we do voice activity detection and can produce half, quarter, and
  36. eighth rate frames.  The voice activity factor of standard speech
  37. works out to about 0.6 with this method, which means that the
  38. resulting data is only 60% of the size of that where we force it to
  39. stay in full rate mode, which gives about 2.6 megs for an hour of
  40. speech, or 720 bytes per second.
  41.  
  42. Given your sampling rate of 8000 Hz with 8 bit samples, that would be
  43. 28.8 megs for an hour of speech, so we're doing around 7:1 without
  44. even bothering with voice activity, about 11:1 with it, including
  45. error correction.
  46.  
  47. We're doing all this in an ASIC, but it demonstrates that it's
  48. possible to get what you want with a version of CELP.  At least it
  49. might be worth looking into.
  50. -- 
  51. I never made a mistake in my life.  I thought I did once, but I was wrong.
  52.