home *** CD-ROM | disk | FTP | other *** search
/ ftp.pasteur.org/FAQ/ / ftp-pasteur-org-FAQ.zip / FAQ / comp-speech-faq / part2 < prev    next >
Internet Message Format  |  1998-07-13  |  61KB

  1. Path: senator-bedfellow.mit.edu!faqserv
  2. From: andrew.hunt@east.sun.com (Andrew Hunt)
  3. Newsgroups: comp.speech,comp.answers,news.answers
  4. Subject: comp.speech Frequently Asked Questions - part 2/3
  5. Supersedes: <comp-speech-faq/part2_897652698@rtfm.mit.edu>
  6. Followup-To: comp.speech
  7. Date: 12 Jul 1998 12:00:23 GMT
  8. Organization: Speech Applications Group, Sun Microsystems Laboratories
  9. Lines: 1469
  10. Approved: news-answers-request@MIT.Edu
  11. Expires: 23 Aug 1998 12:00:04 GMT
  12. Message-ID: <comp-speech-faq/part2_900244804@rtfm.mit.edu>
  13. References: <comp-speech-faq/part1_900244804@rtfm.mit.edu>
  14. Reply-To: andrew.hunt@east.sun.com (Andrew Hunt)
  15. NNTP-Posting-Host: penguin-lust.mit.edu
  16. Summary: Information on Speech Technology
  17. X-Last-Updated: 1998/07/08
  18. Originator: faqserv@penguin-lust.MIT.EDU
  19. Xref: senator-bedfellow.mit.edu comp.speech:18456 comp.answers:32122 news.answers:134643
  20.  
  21. Archive-name: comp-speech-faq/part2
  22. Last-modified: 1998/07/06
  23. URL: http://www.speech.su.oz.au/comp.speech/
  24.  
  25.                    COMP.SPEECH FAQ POSTING - PART 2/3
  26.  
  27.  
  28. [Note: this document has been automatically extracted from a WWW site:
  29.         http://www.speech.su.oz.au/comp.speech/
  30. This may introduce some formatting errors.]
  31.  
  32.  
  33.                         Signal Processing for Speech
  34.  
  35.                          comp.speech FAQ Section 2
  36.  
  37.           * SpeechLinks: Signal Processing for Speech
  38.           * Q2.1: What sampling do I need for speech?
  39.           * Q2.2: Finding the pitch of a speech signal
  40.           * Q2.3: How do I find the start and end points of a speech
  41.           signal?
  42.           * Q2.4: Where can I find FFT software?
  43.           * Q2.5: Signal processing in speech technology
  44.           * Q2.6: Speech sampling and signal processing hardware
  45.           * Q2.7: How do I convert to/from mu-law format?
  46.           * Q2.8: Signal Processing Software
  47.  
  48.  
  49. ___________________________________________________________________________
  50.  
  51.                Q2.1: What sampling do I need for speech?
  52.  
  53.    For recorded speech to be understood by humans you need an 8kHz
  54.    sampling rate or more and at least 8 bit sampling. This produces poor
  55.    quality speech - but in can be understood.
  56.  
  57.    Improvements can be achieved by increasing the number of bits in
  58.    sampling to 12bits or 16bits, or by using a non-linear encoding
  59.    technique such as mu-law or A-law (see Q2.7). This improves the
  60.    "signal-to-noise" ratio.
  61.  
  62.    Increasing the sampling rate above 8kHz, say to 10kHz, 16kHz or 20Khz,
  63.    improves the frequency response: the higher the sampling frequency the
  64.    better the high frequency content will be. A 16kHz sampling rate is a
  65.    reasonable target for high quality speech recording and playback.
  66.  
  67.    When doing speech recognition you need to remember that the your
  68.    computer is not as good as your ear so it will have trouble with poor
  69.    quality sounds. The choice of an appropriate sampling setup depends
  70.    very much on the speech recognition task and the amount of computer
  71.    power available.
  72.  
  73.  
  74. ___________________________________________________________________________
  75.  
  76.                Q2.2: Finding the pitch of a speech signal
  77.  
  78.    This topic comes up regularly in the comp.dsp newsgroup. Question 2.5
  79.    of the FAQ posting for comp.dsp gives a comprehensive list of
  80.    references on the definition, perception and processing of pitch. The
  81.    comp.dsp FAQ posting is posted regularly to the comp.dsp newsgroup,
  82.    and is also available by ftp and on the WWW:
  83.  
  84.      * http://www.bdti.com/faq/dsp_faq.htm
  85.      * ftp://rtfm.mit.edu/pub/usenet/comp.dsp/
  86.  
  87.    The following provide pitch tracking software:
  88.  
  89.      * Most of the speech processing environments listed in Q1.9
  90.        including CSRE, ESPS, Kay Elemetrics Computer Speech Lab, OGI
  91.        Speech Tools, Speech Filing System, Signalyze, Soundscope.
  92.  
  93.  
  94. ___________________________________________________________________________
  95.  
  96.          Q2.3: Finding start and end points of a speech signal
  97.  
  98.    End-point detection algorithms identify sections in an incoming audio
  99.    signal that contain speech. Accurate end-pointing is a non-trivial
  100.    task, however, reasonable behaviour can be obtained for inputs which
  101.    contain only speech surrounded by silence (no other noises). Typical
  102.    algorithms look at the energy or amplitude of the incoming signal and
  103.    at the rate of "zero-crossings". A zero-crossing is where the audio
  104.    signal changes from positive to negative or visa versa. When the
  105.    energy and zero-crossings are at certain levels, it is reasonable to
  106.    guess that there is speech. More detailed descriptions are provided in
  107.    the papers cited below and in the documentation for the following
  108.    software.
  109.  
  110.    End-point detection software is available from:
  111.  
  112.      * ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/tools/ep.1.0.tar.gz
  113.      *
  114.        ftp://ftp.isip.msstate.edu/pub/software/signal_detector/sigd_v2.2.t
  115.        ar.gz
  116.  
  117.    Plenty of research papers have been presented on end-pointing. Try the
  118.    following:
  119.  
  120.      * Rabiner LR, Sambur MR, "An Algorithm for Determining the Endpoints
  121.        of Isolated Utterances", Bell System Technical Journal, Vol 54,
  122.        No. 2, pp 297-315, 1975.
  123.      * Drago, P.G. et al. "Digital Dynamic Speech Detectors." IEEE Trans
  124.        on Communications, Vol 26, No 1, Jan 78, pp. 140-145.
  125.      * Newman, W.C. "Detecting Speech with an Adapative Neural Network."
  126.        Electronic Design. 22 March 1990.
  127.      * Taboada. J et al "Explicit Estimation of Speech Boundaries" IEE
  128.        Proc. Sci. Meas. Technol., Vol 141, No.3, May 1994, pp 153-159.
  129.  
  130.  
  131. ___________________________________________________________________________
  132.  
  133.                            Q2.4: FFT Software
  134.  
  135.    * Comprehensive list of FFT software
  136.           Links to over 65 different pieces of one-dimensional FFT code.
  137.           http://tjev.tel.etf.hr/josip/DSP/fft.html
  138.  
  139.    * FFT Software including optimised fft routines and mixed-radix
  140.           algorithms
  141.           ftp://usc.edu/pub/C-numanal/fft-stuff.tar.gz
  142.           OR,
  143.           ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/analysis/fft-stuff.
  144.           tar.gz
  145.  
  146.    * mixfft03.zip: C-source for a very fast arbitrary N FFT routine
  147.           The C-source is ShareWare: read the text file included in the
  148.           package before using the FFT routine commercially.
  149.           Jens J. Nielsen: jnielsen@internet.dk
  150.           Available from
  151.           ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/analysis/mixfft03.z
  152.           ip
  153.           OR ftp://ftp.coast.net/simtel/msdos/c/mixfft03.zip
  154.  
  155.    * FFTW
  156.           FFTW is a C subroutine library for computing the FFT in one or
  157.           more dimensions. It is not limited to sizes that are powers of
  158.           two, and includes real-complex and parallel transforms.
  159.           Also on the FFTW web site are benchmarks comparing the
  160.           performance and accuracy of many public-domain FFT
  161.           implementations on a variety of platforms, as well as links to
  162.           other sources of FFT code and information.
  163.           Available from http://theory.lcs.mit.edu/~fftw
  164.           Developed by Matteo Frigo and Steven G. Johnson:
  165.           fftw@theory.lcs.mit.edu
  166.  
  167.  
  168. ___________________________________________________________________________
  169.  
  170.               Q2.5: Signal processing in speech technology
  171.  
  172.    This question is far to big to be answered in a FAQ posting. Here are
  173.    some WWW resources and books which cover the area well.
  174.  
  175.   Tony Robinson's Course Notes
  176.  
  177.    Dr. Tony Robinson of the Engineering Dept of Cambridge University has
  178.    put his Speech Analysis course notes on the web. The base page is
  179.    http://svr-www.eng.cam.ac.uk/~ajr/SA95/. There is information on the
  180.    following:
  181.  
  182.      * Sampling theory
  183.      * Filter bank analysis
  184.      * Short-term fourier analysis
  185.      * Linear prediction analysis
  186.      * Formant analysis and voicing analysis
  187.      * Speech coding
  188.      * and more....
  189.  
  190.   Joseph Picone's Course Notes
  191.  
  192.    Joseph Picone of the Institute for Signal and Information Processing
  193.    (ISIP) at Mississippi State University has put two sets of course
  194.    notes on the web:
  195.  
  196.    EE 4773/6773: Digital Signal Processing
  197.           The course covers sampling, frequency analysis, z-transforms,
  198.           filter design and more. The WWW site provides the syllabus,
  199.           assignments, some source code data, exams, homework and
  200.           solutions, lecture notes and more.
  201.  
  202.    EE 8993: Fundamentals of Speech Recognition
  203.           The course covers background probability and
  204.           phonetics/acoustics, speech signal analysis, dynamic
  205.           programming, dynamic time warping, hidden Markov modelling,
  206.           language modelling, neural networks, etc. The WWW sites
  207.           provides the syllabus and lecture notes.
  208.  
  209.   Signal Processing Home page
  210.  
  211.    The Signal Processing Home page has information on a range of DSP
  212.    issues. It includes references to a range of software and much more.
  213.    http://tjev.tel.etf.hr/josip/DSP/sigproc.html
  214.  
  215.   Books and other References
  216.  
  217.    There are many good books which discuss signal processing for speech:
  218.  
  219.      * Digital processing of speech signals; L. R. Rabiner, R. W.
  220.        Schafer. Englewood Cliffs; London: Prentice-Hall, 1978
  221.      * Voice and Speech Processing; T. W. Parsons. New York; McGraw Hill
  222.        1986
  223.      * Computer Speech Processing; ed Frank Fallside, William A. Woods
  224.        Englewood Cliffs: Prentice-Hall, c1985
  225.      * Digital speech processing : speech coding, synthesis, and
  226.        recognition edited by A. Nejat Ince; Kluwer Academic Publishers,
  227.        Boston, c1992
  228.      * Speech science and technology; edited by Shuzo Saito pub. Ohmsha,
  229.        Tokyo, c1992
  230.      * Speech analysis; edited by Ronald W. Schafer, John D. Markel, New
  231.        York, IEEE Press, c1979
  232.      * Applied Speech Technology Edited by: Ann Syrdal (AT&T Bell Labs,
  233.        Holmdel, New Jersey), Raymond Bennett (Ameritech, Hoffman Estates,
  234.        Illinois) and Steven Greenspan (AT&T Bell Labs, Murray Hill, New
  235.        Jersey). Publisher: CRC Press.
  236.      * Speech Communication: Human and Machine Douglas O'Shaughnessy,
  237.        Addison Wesley series in Electrical Engineering: Digital Signal
  238.        Processing, 1987.
  239.      * Discrete-time processing of speech signals; John R Deller, John G
  240.        Proakis, John H L Hansen; Macmillan 1993.
  241.      * Signal processing of speech; F J Owens; Macmillan 1993.
  242.  
  243.  
  244. ___________________________________________________________________________
  245.  
  246.           Q2.6: Speech sampling and signal processing hardware
  247.  
  248.    In addition to the following information, have a look at the Audio
  249.    File format document prepared by Guido van Rossum (see details in
  250.    Section 1.8).
  251.  
  252.    Information is included on hardware for the following systems:
  253.  
  254.           * Macintosh Audio Hardware
  255.           * PC Audio Hardware
  256.           * Unix Audio Hardware
  257.  
  258.    Can anyone provide information for SGI, NeXT, other UNIX hardware and
  259.    any other PC soundcards?
  260.  
  261.  
  262.  
  263.  Macintosh Audio Hardware - an overview
  264.  
  265.      * Description: ALL Macintosh computers come with the ability to play
  266.        back sounds at any sample rate (sample rate conversion is done in
  267.        software.) Older machines have 8 bit stereo output (hardware runs
  268.        at 22254 samples/second). The newer machines have 16 bit stereo
  269.        hardare running at 44100 samples/second.
  270.        Most of the recent Macintosh computers come with sound input
  271.        hardware. There are probably exceptions to this, but the older and
  272.        some of the current low-end machines have 8 bit (linear) mono
  273.        hardware running at 22254.54 samples/second. All of the PowerPC,
  274.        AV, and the 500 series notebook computers come with 16 bit 44kHz
  275.        stereo sampling hardware. They can also record at 22050
  276.        samples/second. The sound manager implements an AGC (Automatic
  277.        Gain Control) function for the 8 bit hardware. The drivers have a
  278.        switch to turn off the AGC.
  279.        There are a number of DSP vendors that support high quality audio.
  280.        Generally this means quieter analog sections, and more IO formats
  281.        (AES/IBU, for example). Try DigiDesign and Spectral Innovations.
  282.        The software drivers for sound are described in "Inside Macintosh:
  283.        Sound". If you want to see some sample code check out the sources
  284.        for the Matlab "Sound and Image Toolbox". They can be found at
  285.  
  286.                 ftp://ftp.apple.com/pub/malcolm/SoundAndImageToolbox.cpt.
  287.                 hqx
  288.  
  289.        Routines that play and record sounds using the toolbox are
  290.        included (and interfaced to Matlab).
  291.  
  292.  
  293.  
  294.  PC Audio Hardware
  295.  
  296.    Note: new soundcards are becoming available all the time - the
  297.    information below is definitely not up to date. Check out the
  298.    following newsgroups for up-to-date information.
  299.  
  300.      * comp.sys.ibm.pc.soundcard
  301.      * comp.sys.ibm.pc.soundcard.GUS
  302.      * comp.sys.ibm.pc.soundcard.advocacy
  303.      * comp.sys.ibm.pc.soundcard.games
  304.      * comp.sys.ibm.pc.soundcard.misc
  305.      * comp.sys.ibm.pc.soundcard.music
  306.      * comp.sys.ibm.pc.soundcard.tech
  307.  
  308.    The Soundcard WWW Site is an excellent source of information:
  309.  
  310.      * http://www.wi.leidenuniv.nl/audio/
  311.  
  312.    An good source of programs and information for soundcards is SimTel:
  313.  
  314.      * http://www.acs.oakland.edu/oak/SimTel/win3/sound.html
  315.  
  316.    Additional information on PC soundcards is provided by the FAQ
  317.    postings for the comp.sys.ibm.pc.soundcard.misc newsgroup. These are
  318.    available by anonymous ftp from:
  319.    ftp://rtfm.mit.edu/pub/usenet/comp.sys.ibm.pc.soundcard.misc/
  320.  
  321.      * Aria Soundcard FAQ
  322.      * Aria Soundcard Support List
  323.      * MIDI files software archives on the Internet
  324.      * Turtle Beach sound cards FAQ
  325.  
  326.  
  327.  
  328.  Unix Audio Hardware
  329.  
  330.    Could someone please provide information on the audio capabilities of
  331.    other Unix platforms?
  332.  
  333.     Sun standard audio port: SPARC I & II
  334.  
  335.      * Input and Output: 1 channel, 8 bit mu-law encoded, 8kHz sample
  336.        rate. This provides telephone quality sampling.
  337.  
  338.     Sun DBRI audio port (SPARC 10 & 20)
  339.  
  340.      * Input and Output: Stereo (2 channels). 16-bit linear sampling.
  341.        Multiple sample rates (48000, 44100, 37800, 32000, 22050, 18900,
  342.        16000, 11025, 9600, 8000 Hz)
  343.  
  344.     Silicon Graphics Audio
  345.  
  346.    The Silicon Graphics audio Frequently Asked Questions (FAQ) is the
  347.    best place to get information on SGI audio capabilities and
  348.    programming. It provides information on connecting the audio output,
  349.    using the DSP capabilities, controlling the audio output, programming,
  350.    useful software and more. It is available from:
  351.  
  352.      * WWW: http://www-viz.tamu.edu/~sgi-faq/faq/html/audio/
  353.      * News: comp.sys.sgi.misc
  354.      * Ftp: ftp://viz.tamu.edu/pub/sgi/faq/
  355.  
  356.     Ariel Signal Processors
  357.  
  358.      * Platform: Various
  359.      * Description: A range of signal I/O, A/D, D/A and DSP products are
  360.        available. There are too many to list.
  361.      * Contact: Ariel Corp.
  362.        433 River Road, Highland Park, NJ 08904.
  363.        Ph: 908-249-2900 Fax: 908-249-2123 DSP BBS: 908-249-2124
  364.  
  365.  
  366. ___________________________________________________________________________
  367.  
  368.              Q2.7: How do I convert to/from mu-law format?
  369.  
  370.    Mu-law coding is a form of compression for audio signals including
  371.    speech. It is widely used in the telecommunications field because it
  372.    improves the signal-to-noise ratio without increasing the amount of
  373.    data. Typically, mu-law compressed speech is carried in 8-bit samples.
  374.    It is a companding technqiue. That means that carries more information
  375.    about the smaller signals than about larger signals.
  376.  
  377.    On SUN Sparc systems have a look in the directory /usr/demo/SOUND.
  378.    Included are table lookup macros for ulaw conversions. [Note however
  379.    that not all systems will have /usr/demo/SOUND installed as it is
  380.    optional - see your system admin if it is missing.]
  381.  
  382.    OR, here is some sample conversion code in C.
  383.  
  384. /**
  385.  ** Signal conversion routines for use with Sun4/60 audio chip
  386.  **/
  387.  
  388. #include stdio.h
  389.  
  390. unsigned char linear2ulaw(/* int */);
  391. int ulaw2linear(/* unsigned char */);
  392.  
  393. /*
  394. ** This routine converts from linear to ulaw
  395. **
  396. ** Craig Reese: IDA/Supercomputing Research Center
  397. ** Joe Campbell: Department of Defense
  398. ** 29 September 1989
  399. **
  400. ** References:
  401. ** 1) CCITT Recommendation G.711  (very difficult to follow)
  402. ** 2) "A New Digital Technique for Implementation of Any
  403. **     Continuous PCM Companding Law," Villeret, Michel,
  404. **     et al. 1973 IEEE Int. Conf. on Communications, Vol 1,
  405. **     1973, pg. 11.12-11.17
  406. ** 3) MIL-STD-188-113,"Interoperability and Performance Standards
  407. **     for Analog-to_Digital Conversion Techniques,"
  408. **     17 February 1987
  409. **
  410. ** Input: Signed 16 bit linear sample
  411. ** Output: 8 bit ulaw sample
  412. */
  413.  
  414. #define ZEROTRAP    /* turn on the trap as per the MIL-STD */
  415. #define BIAS 0x84   /* define the add-in bias for 16 bit samples */
  416. #define CLIP 32635
  417.  
  418. unsigned char
  419. linear2ulaw(sample)
  420. int sample; {
  421.   static int exp_lut[256] = {0,0,1,1,2,2,2,2,3,3,3,3,3,3,3,3,
  422.                              4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,
  423.                              5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,
  424.                              5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,
  425.                              6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,
  426.                              6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,
  427.                              6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,
  428.                              6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,
  429.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
  430.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
  431.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
  432.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
  433.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
  434.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
  435.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
  436.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7};
  437.   int sign, exponent, mantissa;
  438.   unsigned char ulawbyte;
  439.  
  440.   /* Get the sample into sign-magnitude. */
  441.   sign = (sample >> 8) & 0x80;          /* set aside the sign */
  442.   if (sign != 0) sample = -sample;              /* get magnitude */
  443.   if (sample > CLIP) sample = CLIP;             /* clip the magnitude */
  444.  
  445.   /* Convert from 16 bit linear to ulaw. */
  446.   sample = sample + BIAS;
  447.   exponent = exp_lut[(sample >> 7) & 0xFF];
  448.   mantissa = (sample >> (exponent + 3)) & 0x0F;
  449.   ulawbyte = ~(sign | (exponent << 4) | mantissa);
  450. #ifdef ZEROTRAP
  451.   if (ulawbyte == 0) ulawbyte = 0x02;   /* optional CCITT trap */
  452. #endif
  453.  
  454.   return(ulawbyte);
  455. }
  456.  
  457. /*
  458. ** This routine converts from ulaw to 16 bit linear.
  459. **
  460. ** Craig Reese: IDA/Supercomputing Research Center
  461. ** 29 September 1989
  462. **
  463. ** References:
  464. ** 1) CCITT Recommendation G.711  (very difficult to follow)
  465. ** 2) MIL-STD-188-113,"Interoperability and Performance Standards
  466. **     for Analog-to_Digital Conversion Techniques,"
  467. **     17 February 1987
  468. **
  469. ** Input: 8 bit ulaw sample
  470. ** Output: signed 16 bit linear sample
  471. */
  472.  
  473. int
  474. ulaw2linear(ulawbyte)
  475. unsigned char ulawbyte;
  476. {
  477.   static int exp_lut[8] = {0,132,396,924,1980,4092,8316,16764};
  478.   int sign, exponent, mantissa, sample;
  479.  
  480.   ulawbyte = ~ulawbyte;
  481.   sign = (ulawbyte & 0x80);
  482.   exponent = (ulawbyte >> 4) & 0x07;
  483.   mantissa = ulawbyte & 0x0F;
  484.   sample = exp_lut[exponent] + (mantissa << (exponent + 3));
  485.   if (sign != 0) sample = -sample;
  486.  
  487.   return(sample);
  488. }
  489.  
  490.  
  491. ___________________________________________________________________________
  492.  
  493.                     Q2.8: Signal Processing Software
  494.  
  495.    [Note: Question 1.9 lists speech laboratory environments and audio
  496.    editors, many of which provide basic and advanced signal processing
  497.    capabilities.]
  498.  
  499. Signal Processing Products
  500.  
  501.           * SigLib from Numerix Ltd.
  502.  
  503. On the Web
  504.  
  505.    The following sites provide lists of useful DSP software. Not all the
  506.    software is directly applicable to speech processing.
  507.  
  508.    comp.dsp FAQ
  509.           http://www.bdti.com/faq/dsp_faq.htm
  510.  
  511.    DSP Internet Resources
  512.           http://www.eg3.com/
  513.           http://www.eg3.com/dsp.htm
  514.  
  515.    Poynton's Digital Signal Processing Resource List
  516.           http://www.inforamp.net/~poynton/Poynton-dsp.html
  517.  
  518.    WWW Pages Relating to Sound Computation
  519.           http://datura.cerl.uiuc.edu/netstuff/sigsoundLinks.html
  520.  
  521.    Yahoo - Signal and Image Processing
  522.           http://www.yahoo.com/Science/Engineering/Electrical_Engineering
  523.           /Signal_and_Image_Processing/
  524.  
  525.    Sound Related Resources
  526.           http://pscinfo.psc.edu/~geigel/menus/sound.html
  527.  
  528.    SPLIB: Signal Processing url LIBrary
  529.           http://jazz.rice.edu/splib/
  530.  
  531.    Wavelet's Home Page
  532.           http://www.mat.sbg.ac.at/~uhl/wav.html
  533.  
  534.  
  535.  
  536. SigLib from Numerix Ltd.
  537.  
  538.      * Platform: Windows, Unix and all major DSPs
  539.      * Description: SigLib is an ANSI C Source DSP Library and includes
  540.        functions for the following areas : spectrum analysis, windowing,
  541.        filtering (fixed and adaptive coefficient), convolution,
  542.        correlation, covariance, signal generation, statistical analysis,
  543.        regression analysis, communications and modulation, digital
  544.        effects, vectors processing, control, graphics and file I/O.
  545.        Detailed product information and a description of the application
  546.        of SigLib to speech processing is provided on the Numerix Ltd. WWW
  547.        site.
  548.      * Availability: A free demonstration of SigLib V2.0 is available
  549.        from the Numerix Ltd. WWW site. Educational discount is available
  550.        for SigLib.
  551.      * Contact: Numerix Ltd.,
  552.        157 Sileby Road, Barrow-on-Soar, Leics, LE12 8LW, UK.
  553.        Phone/Fax : +44 (0)1509 413195
  554.        Email: numerix@numerix.co.uk
  555.        WWW: http://www.numerix.co.uk/
  556.  
  557.  
  558. ___________________________________________________________________________
  559.  
  560.                        Speech Coding and Compression
  561.  
  562.                          comp.speech FAQ Section 3
  563.  
  564.           * SpeechLinks: Speech Coding
  565.           * Q3.1: Speech compression techniques
  566.           * Q3.2: Information on speech coding and compression
  567.           * Q3.3: Speech Compression / Coding Software
  568.  
  569.  
  570. ___________________________________________________________________________
  571.  
  572.                   Q3.1: Speech compression techniques
  573.  
  574.    Provided by Tony Robinson:
  575.  
  576.    The aim of speech compression is to produce a compact representation
  577.    of speech sounds such that when reconstructed it is perceived to be
  578.    close to the original. The two main measures of closeness are
  579.    intelligibility and naturalness.
  580.  
  581.    The standard reference point is toll quality speech, this is the same
  582.    as what would be expected over a telephone line, for example, speech
  583.    coded at 8 kHz using 8 bit ulaw coding and a maximum frequency of
  584.    about 3.3 kHz. This is a bit rate of 64 kbps, and as such represents a
  585.    compressed form over (say) 16 bit, 16 kHz speech which is the standard
  586.    in speech recognition work.
  587.  
  588.    ulaw coding does not exploit the (normally large) sample to sample
  589.    correlations found in speech. ADPCM is the next family of speech
  590.    coding techniques, and does exploit this redundancy by using a simple
  591.    linear filter to predict the next sample of speech. The resulting
  592.    prediction error is typically quantised to 4 bits thus giving a bit
  593.    rate of 32 kbps (see, for example, the software in Q3.3: 32 kbps
  594.    ADPCM, G.711/721/723 Compression, shorten). The advantages of ADPCM
  595.    are that is simple to implement and has very low delay.
  596.  
  597.    To obtain more compression specific properties of the speech signal
  598.    must be modelling. The main assumption is known as the source filter
  599.    model of speech production. This assumes that a source (voicing or
  600.    fricative excitation) is passed through a filter (the vocal tract
  601.    response) to produce the speech. The simplest implementation of this
  602.    is known as a LPC synthesiser (e.g. LPC10e). At every frame the speech
  603.    is analysed to compute the filter coefficients, the energy of the
  604.    excitation, a voicing decision, and a pitch value if voiced. At the
  605.    decoder a regular set of pulses for voiced speech or white noise for
  606.    unvoiced speech is passed through the linear filter and multiplied by
  607.    the gain to produce the speech. This is a very efficient system and
  608.    typically produces speech coded at 1200-2400bps. With clever acoustic
  609.    vector prediction this can be reduced to 300-600bps. The disadvantages
  610.    are a loss of naturalness over most of the speech and occasionally a
  611.    loss of intelligibility.
  612.  
  613.    The CELP family of coders compensates for the lack of quality of the
  614.    simple LPC model by using more information in the excitation. Each of
  615.    a set of codebook of excitation vectors is tried and the index of the
  616.    one that best matches the original speech is transmitted. This results
  617.    in an increase in the bit rate to typically 4800-9600bps. Most speech
  618.    coding research is currently directed towards CELP coders. (See, for
  619.    example, CELP 3.2a, a TMS implementation, a G.728 LD-CELP vocoder, and
  620.    the L&H implementation.
  621.  
  622.  
  623. ___________________________________________________________________________
  624.  
  625.            Q3.2: Information on speech coding and compression
  626.  
  627.   Reference Books
  628.  
  629.    The following books cover speech coding/compression.
  630.  
  631.      * Douglas O'Shaughnessy, Speech Communication: Human and Machine,
  632.        Addison Wesley series in Electrical Engineering: Digital Signal
  633.        Processing, 1987.
  634.      * Bishnu Atal in ed. Fallside, F. and W. Woods, ed. Computer Speech
  635.        Processing. London: Prentice/Hall International, 1985. N. S.
  636.        Jayant and P. Noll, Digital Coding of Waveforms, Prentice Hall,
  637.        ISBN 0-13-211913-7 01, 1984.
  638.      * W.B. Kleijn and K.K. Paliwal (Eds.), Speech Coding and Synthesis,
  639.        Elsevier, Amsterdam, 1995.
  640.        Contents, preface etc on the WWW:
  641.        http://www.elsevier.nl/section/engtech/scs/menu.htm
  642.      * Thomas P. Barnwell, Kambiz Nayebi and Craig H Richardson, Speech
  643.        Coding: A Computer Laboratory Textbook, John Wiley and Sons Inc,
  644.        1996.
  645.      * Schuyler R Quackenbush, Tom P Barnwell III, Mark A Clements,
  646.        Objective Measures of Speech Quality, Prentice-Hall, 1988.
  647.  
  648.    And the are good tutorial articles.
  649.  
  650.      * Makhoul, J. "Linear Prediction: A Tutorial Review." Proc. of the
  651.        IEEE 63 (1975): 561 - 580.
  652.  
  653.   On the WWW
  654.  
  655.     comp.compression FAQ
  656.           Includes a few questions and answers on the compression of
  657.           speech.
  658.           ftp://rtfm.mit.edu/pub/usenet/comp.compression/
  659.  
  660.     Tony Robinson's Speech Analysis Course
  661.           A complete course on speech analysis, including some stuff on
  662.           speech coding.
  663.           http://svr-www.eng.cam.ac.uk/~ajr/SA95/
  664.           http://svr-www.eng.cam.ac.uk/~ajr/SA95/node78.html
  665.  
  666.     ITU Coding Standards
  667.           Members of the ITU (International Telecommunications Union) can
  668.           obtain copies of the Series G Recommendations (including
  669.           G.711/721/723/728) from the ITU WWW site (http://www.itu.ch/)
  670.           and from http://www.itu.ch/itudoc/itu-t/rec/g/g700-799.html.
  671.  
  672.     Jason Woodard's Speech Coding Page
  673.           Introduction to speech coding plus information on a series of
  674.           speech coding standards.
  675.           http://www-mobile.ecs.soton.ac.uk/speech_codecs/index.html
  676.  
  677.     WWW searchable online-bibiliography for Phonetics and Speech
  678.           Technology
  679.           Over 8000 entries provided by Institut fur Phonetik at Johann
  680.           Wolfgang Goethe-Universitat Frankfurt.
  681.           http://www.uni-frankfurt.de/~ifb/bib_engl.html
  682.  
  683.     Ciaran McElroy's Speech Coding Page
  684.           Introduction to many types of speech coding.
  685.           http://wwwdsp.ucd.ie/speech/tutorial/speech_coding/speech_tut.h
  686.           tml
  687.  
  688.   Examples of speech coding
  689.  
  690.     Nam Phamdo's Speech Coding Demonstration
  691.           Examples of ADPCM, LD-CELP, CELP, LPC10 and CELP coding and
  692.           coding over a noisy channel.
  693.           http://admii.arl.mil/~fsbrn/phamdo/speech_demo.html
  694.  
  695.     Phil Karn's Digital/Analog Voice Demo
  696.           Examples of several speech coding systems.
  697.           http://www.qualcomm.com/people/pkarn/voicedemo/
  698.  
  699.  
  700. ___________________________________________________________________________
  701.  
  702.                Q3.3: Speech Compression / Coding Software
  703.  
  704.    The following speech compression software is described in the FAQ.
  705.  
  706.           * 32 kbps ADPCM
  707.           * Castleton Network Systems - G.729 Voice Coder
  708.           * CELP 3.2a & LPC-10
  709.           * 8 Kbit/s CELP on the TMS320C5x family of DSP chips
  710.           * CyberVoice
  711.           * Rockwell's DigiTalk
  712.           * File format conversion
  713.           * G.711/721/723 Compression
  714.           * G.728 LD-CELP vocoder
  715.           * G.728 Compression
  716.           * GSM 06.10 Compression
  717.           * Lernout & Hauspie Speech Coding (5 products)
  718.           * Lernout & Hauspie Speech Coding SDK
  719.           * MPEG Audio
  720.           * shorten - a lossless compressor for speech signals
  721.           * Sipro Lab Telecom Inc. Coding
  722.           * Sonarc: Digital Audio Compression
  723.           * StarAudio Compressor/Player
  724.           * TrueSpeech from DSP Group
  725.           * U.S.F.S. 1016 CELP vocoder for DSP56001
  726.           * ToolVox from Voxware
  727.  
  728.  
  729.  
  730. 32 kbps ADPCM
  731.  
  732.      * Platform: SGI and Sun Sparcs
  733.      * Description: 32 kbps ADPCM C-source code (G.721 compatibility is
  734.        uncertain)
  735.      * Contact: Jack Jansen
  736.      * Availablity: http://www.cwi.nl/ftp/audio/adpcm.shar
  737.  
  738.  
  739.  
  740. Castleton Network Systems - G.729 Voice Coder
  741.  
  742.      * Platform: TI TMS320C5x DSP
  743.      * Description: G.729, also called CS-ACELP (Conjugate-Structure
  744.        Algebraic Code Excited Linear Prediction), is a state-of-the-art
  745.        voice compression ITU (International Telecommunications Union)
  746.        standard that can be used in a wide range of applications
  747.        including wireless communications, digital satellite systems,
  748.        packetized speech and digital leased lines. G.729 provides 8000
  749.        bits/s bandwidth for compressed speech at toll quality (equivalent
  750.        to G.726 32 kbit/s ADPCM under clean channel condition). Also,
  751.        G.729 has lower complexity and lower bit rate than G.728.
  752.        The Castleton G.729 implementation provides a bit-exact
  753.        implementation of the ITU standard on a single TI TMS320C5x DSP.
  754.        The software is C callable and fully re-entrant, which allows easy
  755.        interfacing and multi-channel capability. The encoder and decoder
  756.        are fully independent, therefore, a DSP device can run a number of
  757.        full-duplex or half-duplex channels. The coder and the decoder are
  758.        able to operate under a real-time task switching kernel.
  759.      * Cost and Availablity: Contact Castleton Network Systems.
  760.      * Contact: Castleton Network Systems Corporation
  761.        350 Terry Fox Drive, Kanata, Ontario, Canada K2K 2W5
  762.        Ph: 613-591-8786, Fax: 613-591-8783
  763.        Email: inquire@castleton.com
  764.        WWW: http://www.castleton.com/
  765.  
  766.  
  767.  
  768. CELP 3.2a & LPC-10
  769.  
  770.      * Platform: Sun (the makefiles and source can be modified for other
  771.        platforms)
  772.      * Description: CELP is lossy compression technqiue. The US
  773.        Department of Defences's Federal-Standard-1016 based 4800 bps code
  774.        excited linear prediction voice coder version 3.2a (CELP 3.2a).
  775.        Fortran and C simulation source codes.
  776.      * Availability: By anonymous ftp from:
  777.        ftp://ftp.super.org/pub/speech/celp_3.2a.tar.Z
  778.        Or from the comp.speech ftp server
  779.        ftp://svr-ftp.eng.cam.ac.uk/comp.speech/coding/celp_3.2a.tar.Z
  780.        ftp://svr-ftp.eng.cam.ac.uk/comp.speech/coding/celp_3.2a.tar.gz
  781.        LPC-10 Fortran source code is also available:
  782.        ftp://ftp.super.org/pub/speech/lpc10-1.0.tar.gz
  783.        Here is a modified LPC-10 release that includes ANSI C source:
  784.        http://www.arl.wustl.edu/~jaf/lpc/
  785.      * Documentation: The following articles describe the
  786.        Federal-Standard-1016 4.8-kbps CELP coder:
  787.           + Campbell, Joseph P. Jr., Thomas E. Tremain and Vanoy C.
  788.             Welch, "The Federal Standard 1016 4800 bps CELP Voice Coder,"
  789.             Digital Signal Processing, Academic Press, 1991, Vol. 1, No.
  790.             3, p. 145-155.
  791.           + Campbell, Joseph P. Jr., Thomas E. Tremain and Vanoy C.
  792.             Welch, "The DoD 4.8 kbps Standard (Proposed Federal Standard
  793.             1016)," in Advances in Speech Coding, ed. Atal, Cuperman and
  794.             Gersho, Kluwer Academic Publishers, 1991, Chapter 12, p.
  795.             121-133.
  796.        The U.S. DoD's Federal-Standard-1015/NATO-STANAG-4198 based 2400
  797.        bps linear prediction coder (LPC-10) was republished as a Federal
  798.        Information Processing Standards Publication 137 (FIPS Pub 137).
  799.        It is described in:
  800.           + Thomas E. Tremain, "The Government Standard Linear Predictive
  801.             Coding Algorithm: LPC-10," Speech Technology Magazine, April
  802.             1982, p. 40-49.
  803.        There is also a section about FS-1015 in the book:
  804.           + Panos E. Papamichalis, Practical Approaches to Speech Coding,
  805.             Prentice-Hall, 1987.
  806.        The voicing classifier used in the enhanced LPC-10 (LPC-10e) is
  807.        described in:
  808.           + Campbell, Joseph P., Jr. and T. E. Tremain, "Voiced/Unvoiced
  809.             Classification of Speech with Applications to the U.S.
  810.             Government LPC-10E Algorithm," Proceedings of the IEEE Intl.
  811.             Conf. on Acoustics, Speech, and Signal Processing, 1986, p.
  812.             473-6.
  813.      * Vendors:
  814.        Realtime DSP code for FS-1015 and FS-1016 is sold by:
  815.           + John DellaMorte, DSP Software Engineering
  816.             165 Middlesex Tpk, Suite 206, Bedford, MA 01730, USA
  817.             Ph: 1-617-275-3733 Fax: 1-617-275-4323
  818.             Email: dspse.bedford@channel1.com
  819.        DSP Software Engineering's FS-1016 code can run on a DSP
  820.        Research's Tiger 30 (a PC board with a TMS320C3x and analog
  821.        interface suited to development work).
  822.           + DSP Research
  823.             1095 E. Duane Ave, Sunnyvale, CA 94086, USA
  824.             Ph: (408)773-1042 Fax: (408)736-3451
  825.  
  826.  
  827.  
  828. 8 Kbit/s CELP on the TMS320C5x family of DSP chips
  829.  
  830.      * Description: For low bandwidth transmission of voice, compact
  831.        voice storage for archival purposes, low-cost digital answering
  832.        machines and efficient storage for voice mail. Features :
  833.           + near toll quality at 8 Kb/s.
  834.           + Variable rate option with 1 Kb/s silence encoding.
  835.           + Implemented on a fixed-point processor for lower system cost.
  836.           + Attractive licensing scheme.
  837.           + Future availability of 4 Kb/s.
  838.           + Custom rates possible.
  839.        Capacity :
  840.           + Two half-duplex or one full duplex channels on the 20 MIPS
  841.             'C5x (at 95% and 55% CPU utilization respectively).
  842.           + Two full duplex channels on the 28.6 MIPS 'C5x (at 77% CPU
  843.             utilization).
  844.           + Requires 9 K-words program memory and 3 K-words data memory.
  845.           + Decoding in real-time on a 486 class CPU.
  846.      * Contact:
  847.  
  848.     CVI Inc.
  849.     443 Vienna Cres. North Vancouver, BC, Canada V7N 3B3
  850.     Tel: (604) 987 1719 Fax: (604) 986 8139
  851.     Email: cvi@extropia.wimsey.com
  852.  
  853.  
  854.  
  855. CyberVoice
  856.  
  857.      * Description: Cybernetics InfoTech, Inc. offers the following
  858.        products
  859.           + Telephone voice compression at 1.2, 2.4, 4.8 and 6.0 kbit/s
  860.             with good-communications-quality to near-toll-quality coded
  861.             voice;
  862.           + Wideband voice (7-kHz bandwidth) compression at 16 kbit/s
  863.             with near-original-quality coded voice;
  864.           + Internet Voice E-mail software with voice editing,
  865.             high-quality low-data-rate voice compression, fast/slow voice
  866.             playback, and more.
  867.      * Availablity: C code and Windows .DLL for telephone voice
  868.        compression and wideband voice compression are available for
  869.        licensing.
  870.        Real-time DSP codes are under development.
  871.        Voice E-mail software is available for purchase and download from
  872.        the CyberVoice home page.
  873.      * Contact: Cybernetics InfoTech, Inc.
  874.        2 Professional Dr., #228, Gaithersburg, MD 20879
  875.        WWW: http://www.cybit.com/
  876.        E-mail: info@cybit.com
  877.        Fax: 301-590-0359
  878.  
  879.  
  880.  
  881. Rockwell's DigiTalk
  882.  
  883.      * Description: The DigiTalk coder operates at a sampling rate of
  884.        8KHz and transmits 223 bits of coded speech every 26ms, giving an
  885.        overall bit rate of 8.577Kbps. The algorithm is based on
  886.        analysis-by-synthesis predictive coding with vector-coded
  887.        excitation, in which the excitation signal is optimized by
  888.        minimizing the perceptually weighted error between the original
  889.        and synthesized speech. More information and results of perceptual
  890.        tests are available on the WWW.
  891.      * Availablity: See the WWW page:
  892.        http://www.nb.rockwell.com/ref/digitalk/
  893.  
  894.  
  895.  
  896. File format conversion
  897.  
  898.      * Platform: SUN OS?
  899.      * Description: Conversion utility able to encode and decode between
  900.        the the following formats: G.723, G.721, A-law, u-law and linear.
  901.      * Availability: By anonymous ftp from
  902.  
  903.                  ftp://ftp.cwi.nl/pub/audio/ccitt-adpcm.tar.Z
  904.  
  905.  
  906.  
  907. G.711/721/723 Compression
  908.  
  909.      * Description:
  910.           + G.711 : CCITT u-law and A-law compression
  911.           + G.721 : CCITT 32 kbps ADPCM coder
  912.           + G.723 : CCITT 24 kbps and 40 kbps ADPCM coders
  913.      * Availability: By email to itudoc@itu.ch, with
  914.                 GET ITU-3022
  915.    as the *only* line in the body of the message.
  916.        It is also available by anonymous ftp from:
  917.  
  918.                 ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/coding/G711_G
  919.                 721_G723.tar.Z
  920.  
  921.  
  922.  
  923. G.728 LD-CELP vocoder
  924.  
  925.      * Platform: Analog Devices ADSP-2171
  926.      * Description: Real-time, full-duplex G.728 LD-CELP vocoder that
  927.        runs on a single Analog Devices ADSP-2171. Source and object code
  928.        available for a one-time license fee.
  929.      * Contact:
  930.  
  931.     Cole Erskine
  932.     Analogical Systems
  933.     299 California Avenue, Suite 120
  934.     Palo Alto, CA 94306, USA
  935.     Tel:(415) 323-3232 FAX:(415) 323-4222
  936.     email: cole@analogical.com
  937.  
  938.  
  939.  
  940. G.728 Compression
  941.  
  942.      * Description: G.728 low delay celp package written by Alex Zatsman
  943.        of Analog Devices, Inc.
  944.      * Availability: By anonymous ftp from
  945.  
  946.                  ftp://dspsun.eas.asu.edu/pub/speech/ldcelp.tgz
  947.  
  948.  
  949.  
  950. GSM 06.10 Compression
  951.  
  952.      * Platform: Unix; faster than real time on most Sun SPARCstations
  953.      * Description: GSM 06.10 is a standardized lossy speech compression
  954.        employed by most European wireless telephones. It uses RPE/LTP
  955.        (residual pulse excitation/long term prediction) coding to
  956.        compress frames of 160 13-bit samples (8 kHz sampling rate, i.e. a
  957.        frame rate of 50 Hz) into 260 bits.
  958.      * Contact: GSM 06.10 support and implementation
  959.        _jutta@cs.tu-berlin.de_, cabo@cs.tu-berlin.de
  960.      * Availability: The following configurations are available be
  961.        anonymous ftp:
  962.  
  963.                  gzip compression from Germany:
  964.                 ftp://ftp.cs.tu-berlin.de/pub/local/kbs/tubmik/gsm/gsm-1.
  965.                 0.7.tar.gz
  966.  
  967.                  MS-DOS compression from Germany:
  968.                 ftp://ftp.cs.tu-berlin.de/pub/local/kbs/tubmik/gsm/ddj/gs
  969.                 m-107.zip
  970.  
  971.                  MS-DOS compression from USA:
  972.                 ftp://ftp.mv.com/pub/ddj/1194.12/gsm-105.zip
  973.  
  974.      * Misc: The WWW site is
  975.  
  976.                 http://www.cs.tu-berlin.de/~jutta/toast.html
  977.  
  978.  
  979.  
  980. Lernout & Hauspie Speech and Music Coding Product Range
  981.  
  982.      * Product name: L&H.smc650: 32kbps ADPCM Speech coding
  983.           + Implementation of ADPCM 32 kbps based on CCITT G721 standard.
  984.           + Estimated quality: 4.1 MOS (Mean Opinion Score)
  985.           + Hardware Example: Analog Devices ADSP2101
  986.           + Input / Output signal: A-Law or mu-Law PCM (64 kbps); Linear
  987.             signal with up to 16 bits per sample; 8 kHz sampling rate
  988.      * Product name: L&H.smc550: LD-CELP 16 kbps speech coding
  989.           + Proprietary implementation of LD-CELP 16 kbps based on CCITT
  990.             G728 standard.
  991.           + Estimated quality: 4.0 MOS (Mean Opinion Score)
  992.           + Hardware Example: Motorola 5600X
  993.           + Input / Output signal: A-Law or mu-Law PCM (64 kbps); Linear
  994.             signal with up to 16 bits per sample; 8 kHz sampling rate
  995.      * Product name: L&H.smc450: 16-17.5 kbps speech coding
  996.           + Estimated Quality: 3.9 MOS (Mean Opinion Score)
  997.           + Hardware Examples: Analog Devices ADSP2101, Intel 486 DX2/66
  998.             MHz
  999.           + Input / Output Signal: A-Law or mu-Law PCM (64 kbps); Linear
  1000.             signal with up to 16 bits per sample; 8 kHz sampling rate.
  1001.      * Product name: L&H.smc350: 4.8-9.6 kbps speech coding
  1002.           + Proprietary CELP based software for compression rates of 4.8
  1003.             kbps to 9.6 kbps
  1004.           + Estimated Quality: 3.5 MOS (Mean Opinion Score)
  1005.           + Hardware Examples: AT&T DSP32C
  1006.           + Input / Output signal: A-Law or mu-Law PCM (64 kbps); Linear
  1007.             signal with up to 16 bits per sample; 8 kHz or 11.025kHz
  1008.             sampling rate.
  1009.      * Product name: L&H.smc250: 2.4 kbps speech coding
  1010.           + Combination of multi band excitation and code book excited
  1011.             linear prediction.
  1012.           + Estimated Quality: 3.0 MOS (Mean Opinion Score).
  1013.           + Hardware Examples: Intel 486 DX2/66 MHz, Analog Devices
  1014.             ADSP2101
  1015.           + Input signal: A-Law or mu-Law PCM (64 kbps); Linear signal
  1016.             with 12-15 bits per sample; 8 kHz sampling rate.
  1017.           + Output signal: A-Law or mu-Law PCM (64 kbps); Linear signal
  1018.             with 12-15 bits per sample; 8 kHz sampling rate.
  1019.      * See also: L&H Speech Coding SDK
  1020.      * More Information: On the WWW: http://www.lhs.com/coding.html
  1021.      * Cost: Unknown
  1022.      * Contact: Lernout and Hauspie Speech Products
  1023.        20 Mall Road, 4th Floor
  1024.        Burlington, MA 01803, USA
  1025.        Ph: +1-617-238-0960, Fax: +1-617-238-0986
  1026.        Email: sales@lhs.com
  1027.        WWW: http://www.lhs.com/
  1028.  
  1029.  
  1030.  
  1031. Lernout & Hauspie Speech Coding SDK
  1032.  
  1033.      * Description: Windows based software development kit for
  1034.        integrating speech coding technology with Windows based PC
  1035.        applications.
  1036.      * Requirements: IBM-compatible 486 DX/33 MHz + 2MB RAM + MS DOS 5.0
  1037.        + MS Windows 3.1 (or higher) + Sound Blaster compatible sound
  1038.        board.
  1039.      * See also: L&H Speech Coding Products
  1040.      * More Information: On the WWW: http://www.lhs.com/coding.html
  1041.      * Cost: Unknown
  1042.      * Contact: Lernout and Hauspie Speech Products
  1043.        20 Mall Road, 4th Floor
  1044.        Burlington, MA 01803, USA
  1045.        Ph: +1-617-238-0960, Fax: +1-617-238-0986
  1046.        Email: sales@lhs.com
  1047.        WWW: http://www.lhs.com/
  1048.  
  1049.  
  1050.  
  1051. MPEG Audio
  1052.  
  1053.    MPEG (Moving Pictures Experts Group) is a standard methods for
  1054.    compression and transmission of digital video and audio. Detailed FAQs
  1055.    and WWW sites are available for MPEG:
  1056.  
  1057.     MPEG Pointers and Resources
  1058.           http://www.mpeg.org/
  1059.  
  1060.     FAQ by Luigi: http://www.crs4.it/~luigi/MPEG/mpegfaq.html
  1061.  
  1062.     FAQ by Frank Gadegast
  1063.           http://www.powerweb.de/mpeg/mpegfaq/
  1064.  
  1065.     FAQ by by Chad Fogg
  1066.           http://www-plateau.cs.berkeley.edu/mpegfaq/MPEG-2-FAQ.html
  1067.  
  1068.     How to Install an MPEG Audio Player for your Web Navigator
  1069.           http://www.mpeg.org/index.html/MPEG-audio-player.html
  1070.  
  1071. MPEG Audio Software on the WWW
  1072.  
  1073.     Audio and Music Applications for Silicon Graphics Systems
  1074.           Lists 4 MPEG audio players for SGI machines.
  1075.           http://reality.sgi.com/employees/cook/audio.apps/public.html
  1076.  
  1077.     MPEG-1 Audio Layer 3 encoder, decoder and FAQ
  1078.           From the Fraunhofer Institute
  1079.           http://www.iis.fhg.de/departs/amm/layer3/index.html
  1080.  
  1081.     MPEG-2 Audio FAQ from Philips
  1082.           http://www.keymodules.philips.com/MD/mpeg/faqmpeg2.htm
  1083.  
  1084.     MPEG-1 and MPEG-2 audio software
  1085.           Universitaet Hannover
  1086.           ftp://ftp.tnt.uni-hannover.de/pub/MPEG/audio/
  1087.  
  1088.     MPEG-1 Audio Layer 1 &2 encoder - decoder
  1089.           Internet Underground Music Archive (IUMA)
  1090.           ftp://ftp.iuma.com/audio_utils/converters/source/
  1091.  
  1092.     Buddy Software Library: MPEG-1 Audio Layer 3 encoder and
  1093.           player
  1094.           http://www.buddy.org/softlib.html
  1095.  
  1096.     MPEG-1 Audio Layer 1 & 2 decoder and verifier at CCETT
  1097.           ftp://ftp.ccett.fr/pub/mpeg/audio_new/
  1098.  
  1099.     MPEG-2 Audio encoder and decoder at CCETT
  1100.           ftp://ftp.ccett.fr/pub/mpeg/mpeg2/
  1101.  
  1102. MPEG Audio - MetaSound
  1103.  
  1104.      * Platform: MS Windows/3.1 and Windows/95
  1105.      * Description: MetaSound is a partial MPEG-1 software decoder which
  1106.        is designed to work with hardware video decoders. It can reduce
  1107.        the hardware cost by eliminating the need for a hardware audio
  1108.        decoder. Currently, MetaSound has been successfully incorporated
  1109.        to work with three hardware video decoders. Features
  1110.           + Performance: For 486 DX4-100 machines or above, MetaSound can
  1111.             deliver FM quality (22 KHz) sound. For Pentium-90 or above
  1112.             machines, MetaSound requires 40% CPU bandwidth to deliver CD
  1113.             quality (44.1 KHz) sound.
  1114.           + Portability: it can take less than one month to port to new
  1115.             hardware video decoders.
  1116.           + CD standard supports including Video CD 1.0, Video CD 2.0,
  1117.             and CDI.
  1118.           + User interface with full set of functions: volume control,
  1119.             stop, pause, forward, backward, mute, resume, select the
  1120.             previous/next program track (Video CD 2.0), randomly select a
  1121.             program track (Video CD 2.0).
  1122.           + Error Recovery: can automatically skip error bitstreams.
  1123.      * Contact: Meta Media, Inc.
  1124.        F8, #10-1, Ho-Ping East Rd. Sec. 1, Taipei, Taiwan, R.O.C.
  1125.        Ph: 011-886-2-369-3330, Fax: 011-886-2-369-3331
  1126.        Email: mmedia@ms4.hinet.net.tw
  1127.  
  1128.  
  1129.  
  1130. shorten - a lossless compressor for speech signals
  1131.  
  1132.      * Platform: UNIX/DOS
  1133.      * Description: A fast waveform coder suitable for a speech and music
  1134.        signals in a wide variety of file formats. The degree of
  1135.        compression is adjustable from lossless to three bits a sample.
  1136.        16bit 16kHz speech generally attains 50% lossless compression and
  1137.        16:3 compression of CDROM quality speech is obtainable with only
  1138.        minor audiable degredation.
  1139.      * Availability: Anonymous ftp - UNIX and DOS versions
  1140.  
  1141.                 ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/coding/shorte
  1142.                 n.tar.gz
  1143.  
  1144.                 ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/coding/shorte
  1145.                 n.tar.Z
  1146.  
  1147.                 ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/coding/shorte
  1148.                 n.zip
  1149.  
  1150.  
  1151.  
  1152. Sipro Lab Telecom Inc. Coding
  1153.  
  1154.      * Platform: Various processors
  1155.      * Description: Coding software for several International Standards
  1156.        plus two Proprietary standards.
  1157.        International Standards
  1158.          1. PCS 1900 (a 13 kbps codec, established as a North American
  1159.             PCS standard)
  1160.          2. Enhanced GSM (a 13 kbps codec)
  1161.          3. G.723 (8 kbps codec established as a multi-purpose
  1162.             international standard)
  1163.          4. G.729 (a dual-rate codec for the video phone market)
  1164.          5. G.729 Annex A (8 kbps codec made for Digital Simultaneous
  1165.             Voice & Data transmission in the modem industry).
  1166.  
  1167.        Proprietary Standards
  1168.          1. ACELP 8 v2.0 codec (flexible dual rate codec equipped with a
  1169.             VAD)
  1170.          2. ACELP 4.8 codec
  1171.      * Contact: Sipro Lab Telecom Inc.
  1172.        770, Chemin Lucerne, Ville Mont-Royal (Quebec), H3R 2H6 CANADA
  1173.        Ph: (514) 737-5874, Fax: (514) 737-2327
  1174.        E-mail: sales@sipro.com
  1175.        WWW: http://www.sipro.com/
  1176.  
  1177.  
  1178.  
  1179. Sonarc: Digital Audio Compression
  1180.  
  1181.      * Platform: DOS and Windows
  1182.      * Description: Sonarc provides reversable, variable-rate compression
  1183.        of audio signals. Obtains compression ratio which averages about
  1184.        2:1. Supports monaural and stereo files, 8-bit and 16-bit files,
  1185.        and WAVE and VOC formats.
  1186.      * Availablity: Shareware by Richard P. Sprague
  1187.        Speech Compression
  1188.        P.O. Box 1785, Wilsonville, OR, 97070-1785, USA
  1189.        Ph: (503) 263-3102
  1190.        Email: 76635.3652@compuserve.com
  1191.  
  1192.  
  1193.  
  1194. StarAudio Compressor/Player
  1195.  
  1196.      * Platform: Win95
  1197.      * Description: Using a time-domain process delivers lossless
  1198.        decompressed data. Processes any source of .wav file format, high
  1199.        quality 16-bit audio data at any sampling rate. Requires no
  1200.        special hardware and decompression speed is real-time on most
  1201.        486's and on any Pentium. The higher the sampling rate the higher
  1202.        the compression ratio; minimum compression of 4:1 for 11k data,
  1203.        and usually exceeding 7:1 for 44k data. Full bandwidth of signal
  1204.        is preserved with default compression options. Compression options
  1205.        allow increase of compression ratio further with a slight trade
  1206.        off in the reduction of the output quality. A decompression
  1207.        library is available for application development.
  1208.      * Demo: Download the shareware version of the program from the STR
  1209.        WWW site.
  1210.      * Misc: A technical paper is available in Word 6.0 format:
  1211.        ftp://ftp.speechtech.com/pub/speechtech/docs/audocw60.exe
  1212.      * Contact: Speech Technology Research Ltd.,
  1213.        Suite B - 1623 McKenzie Avenue, Victoria, B.C. V8N 1A6, Canada
  1214.        Ph: +1-250-477-0544
  1215.        Email: products@speechtech.com
  1216.        WWW: http://www.speechtech.com/home/speechtech/
  1217.  
  1218.  
  1219.  
  1220. TrueSpeech from DSP Group
  1221.  
  1222.      * Description: TrueSpeech is a family of speech compression and
  1223.        decompression algorithms and software. It is designed for personal
  1224.        computers and personal communications devices. With the high
  1225.        compression ratios ranging from 15:1 to 27:1, TrueSpeech improves
  1226.        the storage and communications transmission of digital voice
  1227.        information and can be used in the integration of personal
  1228.        computers and telephones. TrueSpeech can be utilized in many
  1229.        products and applications such as:
  1230.           + Multimedia PCs
  1231.           + Sound cards and modems
  1232.           + Computer/telephony and teleconferencing
  1233.           + Voice mail systems and PBX systems
  1234.           + Wireless/cellular applications
  1235.           + Personal digital assistants
  1236.           + Games, Education
  1237.           + Video/cable and on-line services
  1238.        The TrueSpeech encoder is available for free in the Sound System
  1239.        of Windows 95 and Windows NT. The DSPG WWW pages have information
  1240.        on how to add TrueSpeech capability to your WWW pages.
  1241.      * Contact: DSP Group, Inc.
  1242.        3120 Scott Boulevard, Santa Clara, CA 95054-3317, USA
  1243.        Phone: (408) 986-4300 Fax: (408) 986-4323
  1244.        Email: Webster@dspg.com
  1245.        WWW: http://www.dspg.com/index.html
  1246.  
  1247.  
  1248.  
  1249. U.S.F.S. 1016 CELP vocoder for DSP56001
  1250.  
  1251.      * Platform: DSP56001
  1252.      * Description: Real-time U.S.F.S. 1016 CELP vocoder that runs on a
  1253.        single 27MHz Motorola DSP56001. Free demo software available for
  1254.        PC-56 and PC-56D. Source and object code available for a one-time
  1255.        license fee.
  1256.      * Contact:
  1257.  
  1258.     Cole Erskine
  1259.     Analogical Systems
  1260.     299 California Avenue, Suite 120
  1261.     Palo Alto, CA 94306, USA
  1262.     Tel:(415) 323-3232 FAX:(415) 323-4222
  1263.     Email: cole@analogical.com
  1264.  
  1265.  
  1266.  
  1267. ToolVox from Voxware
  1268.  
  1269.      * Platform: Windows and soon available on Mac (in Beta now) and Unix
  1270.      * Description: ToolVox is a proprietary frequency domain speech
  1271.        coder. 11 KHz speech is coded to an average rate of between 5,000
  1272.        bits per second and 9,000 bps. Real-time compression algorithms
  1273.        available for 2,400 bps. 22 KHz playback, as well as a ultra low
  1274.        bit rate 8 KHz codec are coming soon. On playback, the time scale
  1275.        can be changed by a 5x factor, pitch can be modified over a 3
  1276.        octave range, and vocal personality can be modified using a
  1277.        tranformation function called VoiceFonts(tm).
  1278.      * Misc 1: A SDK for Windows is available.
  1279.      * Misc 2: Demo software is available from the Voxware Inc WWW page:
  1280.        http://www.voxware.com/
  1281.      * Price: Basic toolkit is $895 US. OEM and mass distribution
  1282.        licenses are separate. Ordering information is provided on the
  1283.        Voxware WWW server.
  1284.      * Contact:
  1285.  
  1286.     Voxware, Inc.
  1287.     Ph: (609) 497-1212 Fax: (609) 497-2490
  1288.     Sale information: sales@voxware.com
  1289.     WWW: http://www.voxware.com/
  1290.  
  1291.  
  1292. ___________________________________________________________________________
  1293.  
  1294.                         Natural Language Processing
  1295.  
  1296.                          comp.speech FAQ Section 4
  1297.  
  1298.    There is now a newsgroup specifically for Natural Language Processing;
  1299.    comp.ai.nat-lang. A FAQ posting is available for the group:
  1300.  
  1301.           ftp://rtfm.mit.edu/pub/usenet/comp.ai.nat-lang/Natural_Language
  1302.           _Processing_FAQ
  1303.  
  1304.    There is also a lot of useful information on Natural Language
  1305.    Processing in the comp.ai FAQ. That FAQ lists available software and
  1306.    useful references. It includes a substantial list of software,
  1307.    documentation and other info available by ftp.
  1308.  
  1309.    The FAQ has information on the following:
  1310.  
  1311.           * Q4.1: NLP References and Books
  1312.           * Q4.2: NLP Software
  1313.  
  1314.  
  1315. ___________________________________________________________________________
  1316.  
  1317.                      Q4.1: NLP References and Books
  1318.  
  1319.    Take a look at the FAQ for the "comp.ai" newsgroup as it also includes
  1320.    some useful references.
  1321.  
  1322.      * James Allen: Natural Language Understanding, (Benjamin/Cummings
  1323.        Series in Computer Science) Menlo Park: Benjamin/Cummings
  1324.        Publishing Company, 1987.
  1325.           + This book consists of four parts: syntactic processing,
  1326.             semantic interpretation, context and world knowledge, and
  1327.             response generation.
  1328.      * G. Gazdar and C. Mellish, Natural Language Processing in Prolog,
  1329.        Addison Wesley, 1989
  1330.      * G. Gazdar and C. Mellish, Natural Language Processing in Lisp,
  1331.        Addison Wesley, 1989
  1332.      * G. Gazdar and C. Mellish, Natural Language Processing in Pop11,
  1333.        Addison Wesley, 1989
  1334.           + Emphasis on parsing, especially unification-based parsing,
  1335.             lots of details on the lexicon, feature propagation, etc.
  1336.             Fair coverage of semantic interpretation, inference in
  1337.             natural language processing, and pragmatics; much less
  1338.             extensive than in Allen's book, but more formal. There are
  1339.             three versions, one for each programming language listed
  1340.             above, with complete code.
  1341.      * Shapiro, Stuart C.: Encyclopedia of Artificial Intelligence Vol.1
  1342.        and 2. New York: John Wiley & Sons, 1990.
  1343.           + There are articles on the different areas of natural language
  1344.             processing which also give additional references.
  1345.      * Paris, Ce'cile L.; Swartout, William R.; Mann, William C.: Natural
  1346.        Language Generation in Artificial Intelligence and Computational
  1347.        Linguistics. Boston: Kluwer Academic Publishers, 1991.
  1348.           + The book describes the most current research developments in
  1349.             natural language generation and all aspects of the generation
  1350.             process are discussed. The book is comprised of three
  1351.             sections: one on text planning, one on lexical choice, and
  1352.             one on grammar.
  1353.      * Readings in Natural Language Processing, ed by B. Grosz, K. Sparck
  1354.        Jones and B. Webber, Morgan Kaufmann, 1986
  1355.           + A collection of classic papers on Natural Language
  1356.             Processing. Fairly complete at the time the book came out
  1357.             (1986) but now seriously out of date. Still useful for ATN's,
  1358.             etc.
  1359.      * Klaus K. Obermeier, Natural Language Processing Technologies in
  1360.        Artificial Intelligence: The Science and Industry Perspective,
  1361.        Ellis Horwood Ltd, John Wiley & Sons, Chichester, England, 1989.
  1362.  
  1363.    The following are extensive bibliographies related to NLP:
  1364.  
  1365.      * Computational Parsing : Syntactic Analysis, Semantic Analysis,
  1366.        Semantic Interpretation, Parsing Algorithms, Parsing Strategies :
  1367.        BIBLIOGRAPHY, by Conrad F. Sabourin 1994, 2 volumes, 1029p, ISBN
  1368.        2-921173-02-6, INFOLINGUA inc., P.O. Box 187 Snowdon, Montreal,
  1369.        H3X 3T4, Canada.
  1370.      * Computational Text Understanding : Natural Language Programming,
  1371.        Argument Analysis : BIBLIOGRAPHY, by Conrad F. Sabourin 1994,
  1372.        657p, ISBN 2-921173-06-9, INFOLINGUA inc., P.O. Box 187 Snowdon,
  1373.        Montreal, H3X 3T4, Canada.
  1374.        See also: http://gomer.mlink.net/infolingua.html
  1375.      * Computational Text Generation : Generation from data or Linguistic
  1376.        Structure, Text Planning, Sentence Generation, Explanation
  1377.        Generation : BIBLIOGRAPHY, by Conrad F. Sabourin with a survey
  1378.        article by Mark T. Maybury 1994, 649p, ISBN 2-921173-07-7,
  1379.        INFOLINGUA inc., P.O. Box 187 Snowdon, Montreal, H3X 3T4, Canada.
  1380.        See also: http://gomer.mlink.net/infolingua.html
  1381.      * Natural Language Processing : Interfaces to Databases, to Expert
  1382.        Systems, to Robots, to Operating Systems, and to
  1383.        Question-Answering Systems : BIBLIOGRAPHY, by Conrad F. Sabourin,
  1384.        1994, 2 volumes, 847p, ISBN 2-921173-08-5 INFOLINGUA inc., P.O.
  1385.        Box 187 Snowdon, Montreal, H3X 3T4, Canada
  1386.        See also: http://gomer.mlink.net/infolingua.html
  1387.  
  1388. Journals
  1389.  
  1390.    The major journals of the field are
  1391.  
  1392.      * Computational Linguistics and _Cognitive Science_ for the
  1393.        artificial intelligence aspects,
  1394.      * Cognition for the psychological aspects,
  1395.      * Language and _Linguistics and Philosophy_ and Linguistic Inquiry
  1396.        for the linguistic aspects.
  1397.      * Artificial Intelligence occasionally has papers on natural
  1398.        language processing.
  1399.  
  1400. Conferences
  1401.  
  1402.    The major NLP conferences are
  1403.  
  1404.      * ACL: held annually
  1405.      * COLING: held biannually
  1406.  
  1407.    Most AI conferences have a NLP track; AAAI, ECAI, IJCAI and the
  1408.    Cognitive Science Society conferences usually interesting for NLP.
  1409.    CUNY is an important psycholinguistic conference. Other conferences
  1410.    include NELS, the conference of the Chicago Linguistic Society (CLS),
  1411.    WCCFL, LSA, the Amsterdam Colloquium, and SALT.
  1412.  
  1413.  
  1414. ___________________________________________________________________________
  1415.  
  1416.                            Q4.2: NLP Software
  1417.  
  1418. Natural Language Software Registry (NLSR) - NLP Tools
  1419.  
  1420.      * The Natural Language Software Registry is available from the
  1421.        German Research Institute for Artificial Intelligence (DFKI) in
  1422.        Saarbrucken. Its purpose is to facilitate the exchange and
  1423.        evaluation of natural language processing software within the
  1424.        research community. To this end, the NLSR is cataloging natural
  1425.        language software projects, both commercial and non- commercial.
  1426.        The new updated and enlarged version contains more than 100
  1427.        descriptions of natural processing software. Registry listings
  1428.        include:
  1429.           + speech signal processors, such as the Computerized Speech Lab
  1430.             (Kay Elemetrics)
  1431.           + morphological analyzers, such as PC-KIMMO (Summer Institute
  1432.             for Linguistics)
  1433.           + parsers, such as Alveytools (University of Edinburgh)
  1434.           + semantic and pragmatic analyzer, such as NLL (University of
  1435.             the Saarland, Germany)
  1436.           + generation programs, such as FUF (Ben Gurion University of
  1437.             the Negev)
  1438.           + knowledge representation systems, such as Rhet (University of
  1439.             Rochester)
  1440.           + multicomponent systems, such as ELU (ISSCO), PENMAN (ISI),
  1441.             Pundit (UNISYS), SNePS (SUNY Buffalo),
  1442.           + NLP-Tools, such as GULP (University of Georgia) or Linguist
  1443.             (Kansai Research Laboratory)
  1444.           + applications programs (misc.)
  1445.      * If you have developed a piece of software for natural language
  1446.        processing that other researchers might find useful, you can
  1447.        include it by returning the questionnaire available from the
  1448.        sources below.
  1449.      * ftp://ftp.dfki.uni-sb.de/pub/registry
  1450.      * e-mail: registry@dfki.uni-sb.de
  1451.      * Natural Language Software Registry
  1452.        Deutsches Forschungsinstitut fuer Kuenstliche Intelligenz (DFKI)
  1453.        Stuhlsatzenhausweg 3
  1454.        D-66123 Saarbruecken
  1455.        Germany
  1456.      * Other ftp sites are
  1457.  
  1458.         ftp://crlftp.nmsu.edu/pub/non-lexical/NL_Software_Registy
  1459.  
  1460.         ftp://dri.cornell.edu/pub/Natural_Language_Software_Registry
  1461.  
  1462. Part of Speech Tagger
  1463.  
  1464.      * Description: A rule-based part of speech tagger developed by Eric
  1465.        Brill.
  1466.      * Availability: The tagger software, about 10 descriptive papers and
  1467.        related data are available by anonymous ftp from
  1468.        ftp://ftp.cs.jhu.edu/pub/brill/
  1469.  
  1470.  
  1471. ___________________________________________________________________________
  1472.  
  1473.    Copyright (c) 1993-6 by Andrew Hunt, all rights reserved.
  1474.    This FAQ may be posted to any USENET newsgroup, on-line service, or BBS as
  1475.    long as it is posted in its entirety and includes this copyright statement.
  1476.    This FAQ may not be distributed for financial gain.
  1477.    This FAQ may not be included in any collections or compilations
  1478.    without express permission from the author.
  1479.  
  1480.  
  1481.  
  1482.  ---
  1483.  
  1484. Andrew Hunt
  1485. Speech Applications Group
  1486. Sun Microsystems Laboratories       Ph:  (978) 442-2681
  1487. 2 Elizabeth Drive, MS UCHL03-207    Fax: (978) 250-5067
  1488. Chelmsford, MA 01824, USA           Email: andrew.hunt@east.sun.com
  1489.