home *** CD-ROM | disk | FTP | other *** search
/ Danny Amor's Online Library / Danny Amor's Online Library - Volume 1.iso / html / faqs / faq / comp-speech-faq / part1 next >
Encoding:
Text File  |  1995-07-25  |  48.8 KB  |  1,162 lines

  1. Subject: comp.speech Frequently Asked Questions - part 1/3
  2. Newsgroups: comp.speech,comp.answers,news.answers
  3. From: andrewh@speech.su.oz.au (Andrew Hunt)
  4. Date: 10 Nov 1994 01:28:52 GMT
  5.  
  6. Archive-name: comp-speech-faq/part1
  7. Last-modified: 1994/11/04
  8.  
  9.  
  10.               COMP.SPEECH FAQ POSTING - PART 1/3
  11.  
  12.  
  13. [Note: this document has been automatically extracted from
  14. a WWW site.  This may introduce some formatting errors.]
  15.  
  16.    
  17. Comp.Speech Frequently Asked Questions
  18.  
  19.    The Frequently Asked Questions (FAQ) is a regular posting to
  20.    comp.speech which attempts to answer some of the regular questions in
  21.    the comp.speech newsgroup.
  22.    
  23.    The FAQ is not meant to discuss any topic exhaustively. It will
  24.    hopefully provide readers with pointers on where to find useful
  25.    information, especially material available on the Internet.
  26.    
  27.    If you have not already read the Usenet introductory material posted
  28.    to "news.announce.newusers", please do. For help with FTP (file
  29.    transfer protocol) look for a regular posting of "Anonymous FTP List -
  30.    FAQ" in comp.misc, comp.archives.admin or news.answers.
  31.    
  32.    This FAQ is posted every 4 weeks to comp.speech, comp.answers &
  33.    news.answers.
  34.    
  35.    It is also available for anonymous ftp from the comp.speech archive
  36.    site :
  37.      * ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/FAQ-complete
  38.        
  39.    From the news.answers ftp site (and its mirrors)
  40.      * ftp://rtfm.mit.edu/pub/usenet/news.answers/comp-speech-faq/*
  41.        
  42.    Or by sending email to mail-server@rtfm.mit.edu with the following
  43.    line in the body of the message:
  44.      * send usenet/news.answers/comp-speech-faq/*
  45.        
  46. Admin
  47.  
  48.    This release sees major changes to the format of the FAQ posting.
  49.    These documents are now automatically extracted from the comp.speech
  50.    World Wide Web site - http://www.speech.su.oz.au/comp.speech. I have
  51.    tried to keep the integrity of the posting intact but there are
  52.    probably errors. Please let me know of any you find.
  53.    
  54. FAQ Sections
  55.  
  56.    The FAQ is divided into the following sections:
  57.      * FAQ Contents
  58.        
  59.      * List of Speech Technology Products and Software
  60.        
  61.      * FAQ Section 1: General Information on Speech Technology
  62.      * FAQ Section 2: Signal Processing
  63.      * FAQ Section 3: Speech Coding and Compression
  64.      * FAQ Section 4: Natural Language Processing
  65.      * FAQ Section 5: Speech Synthesis
  66.      * FAQ Section 6: Speech Recognition
  67.        
  68. Comp.Speech FTP Site
  69.  
  70.    The comp.speech ftp site (which is described in Q1.2) contains the
  71.    following:
  72.      * Newsgroup Archives
  73.      * Data Resources
  74.      * General Information
  75.      * Software
  76.        
  77. Acknowledgements
  78.  
  79.    Hundreds of people have made contributions to the comp.speech FAQ over
  80.    the last two years; there are too many to name individually. Special
  81.    thanks go to Tony Robinson and Joe Campbell who have been particularly
  82.    helpful.
  83.    
  84. Maintainence
  85.  
  86.    The FAQ posting and the Comp.Speech WWW Site are maintained by
  87.     
  88.     Andrew Hunt
  89.     ---
  90.     Speech Technology Research Group
  91.     Dept. of Electrical Engineering
  92.     University of Sydney, NSW, 2006, Australia
  93.     Ph: 61-2-692 4509
  94.     Fax: 61-2-692 3847
  95.     email: andrewh@speech.su.oz.au
  96.  
  97.  
  98. ===========================================================================
  99.  
  100.    
  101.                            COMP.SPEECH FAQ CONTENTS
  102.                                        
  103. Introduction
  104.  
  105.      * Overview
  106.      * List of Packages
  107.        
  108. Section 1 : General Information on Speech Technology
  109.  
  110.      * Q1.1 What is comp.speech?
  111.      * Q1.2 Where are the comp.speech archives?
  112.      * Q1.3 Common abbreviations and jargon.
  113.      * Q1.4 What are related newsgroups and mailing lists?
  114.      * Q1.5 What are related journals and conferences?
  115.      * Q1.6 What resources are available as handicap aids?
  116.      * Q1.7 What speech data is available?
  117.      * Q1.8 Speech File Formats, Conversion and Playing.
  118.      * Q1.9 What "Speech Laboratory Environments" are available?
  119.      * Q1.10 Miscelaneous Software and Other Resources.
  120.        
  121. Section 2 : Signal Processing for Speech
  122.  
  123.      * Q2.1 What sampling do I need for speech?
  124.      * Q2.2 How do I find the pitch of a speech signal?
  125.      * Q2.3 How do I find the start and end points of a speech signal?
  126.      * Q2.4 Where can I find FFT software?
  127.      * Q2.5 What signal processing techniques are used in speech
  128.        technology?
  129.      * Q2.6 What speech sampling and signal processing hardware can I
  130.        use?
  131.      * Q2.7 How do I convert to/from mu-law format?
  132.        
  133. Section 3 : Speech Coding and Compression
  134.  
  135.      * Q3.1 Speech compression techniques.
  136.      * Q3.2 What are some good references/books on coding/compression?
  137.      * Q3.3 What software is available? (Includes CELP & G.7xx)
  138.        
  139. Section 4 : Natural Language Processing
  140.  
  141.      * Q4.1 What are some good references/books on NLP?
  142.      * Q4.2 What NLP software is available?
  143.        
  144. Section 5 : Speech Synthesis
  145.  
  146.      * Q5.1 What is speech synthesis?
  147.      * Q5.2 How can speech synthesis be performed?
  148.      * Q5.3 What are some good references/books on synthesis?
  149.      * Q5.4 What software/hardware is available?
  150.        
  151. Section 6 : Speech Recognition
  152.  
  153.      * Q6.1 What is speech recognition?
  154.      * Q6.2 How can I build a very simple speech recogniser?
  155.      * Q6.3 What does speaker dependent/adaptive/independent mean?
  156.      * Q6.4 What does small/medium/large/very-large vocabulary mean?
  157.      * Q6.5 What does continuous speech or isolated-word mean?
  158.      * Q6.6 How is speech recognition done?
  159.      * Q6.7 What are some good references/books on recognition?
  160.      * Q6.8 What speech recognition packages are available?
  161.  
  162.  
  163. ===========================================================================
  164.  
  165.    
  166. FAQ: List of Packages
  167.  
  168.     The comp.speech FAQ provides information on a range of software,
  169.    hardware and resources.
  170.    
  171. Speech Data
  172.  
  173.      * Phonemic Samples
  174.      * Linguistic Data Consortium (LDC)
  175.      * Center for Spoken Language Understanding (CSLU)
  176.      * PhonDat - A Large Database of Spoken German
  177.      * Oxford Acoustic Phonetic Database
  178.        
  179. Speech Processing Environments
  180.  
  181.      * Entropic Signal Processing System (ESPS) and Waves
  182.      * CSRE: Canadian Speech Research Environment
  183.      * OGI Speech Tools
  184.      * Matlab plus Signal Processing Toolbox
  185.      * Signalyze 3.0 from InfoSignal
  186.      * Kay Elemetrics CSL (Computer Speech Lab) 4300
  187.      * MacSpeech Lab II (MSL II)
  188.      * N!Power
  189.      * Ptolemy
  190.      * Khoros
  191.      * SpeechViewer II
  192.        
  193. Other Resources
  194.  
  195.      * CMU Dictionary
  196.      * Another Dictionary
  197.      * BEEP dictionary
  198.      * CUVOLAD dictionary
  199.      * MRC database
  200.      * Network Audio System
  201.      * NEVOT (1.4v) from AT&T; BL
  202.      * Human Audio Perception Document
  203.      * Homophone List
  204.      * Auditory Toolbox for Matlab
  205.      * Auditory Modeller 1
  206.      * Auditory Modeller 2
  207.        
  208. Audio I/O Hardware
  209.  
  210.      * Sun standard audio port (SPARC I & II)
  211.      * Sun standard audio port (SPARC 10 & 20)
  212.      * Ariel Signal Processors
  213.      * IBM RS/6000 ACPA (Audio Capture and Playback Adapter)
  214.      * Sound Galaxy NX , Aztech Systems
  215.      * Sound Galaxy NX PRO, Aztech Systems
  216.      * ATI Stereo F/X Sound Board
  217.      * Various PC Sound Cards
  218.        
  219. Compression Software and Hardware
  220.  
  221.      * File format conversion
  222.      * shorten - a lossless compressor for speech signals
  223.      * 32 kbps ADPCM
  224.      * GSM 06.10 Compression
  225.      * G.721/722/723 Compression
  226.      * G.728 Compression
  227.      * G.728 LD-CELP vocoder
  228.      * U.S.F.S. 1016 CELP vocoder for DSP56001
  229.      * 8 Kbit/s CELP on the TMS320C5x family of DSP chips
  230.      * CELP 3.2a & LPC
  231.        
  232. Natural Language Processing
  233.  
  234.      * Natural Language Software Registry (NLSR) - NLP Tools
  235.      * Part of Speech Tagger
  236.        
  237. Speech Synthesis
  238.  
  239.      * Orator Text-to-Speech Synthesizer
  240.      * Text to phoneme program (1)
  241.      * Text to phoneme program (2)
  242.      * Text to phoneme program (3)
  243.      * Text to speech program
  244.      * "Speak" - a Text to Speech Program
  245.      * TheBigMouth - a Text to Speech Program
  246.      * TextToSpeech Kit
  247.      * SGI Developers Toolbox Synthesiser
  248.      * rsynth
  249.      * SENSYN speech synthesizer
  250.      * spchsyn.exe
  251.      * CSRE: Canadian Speech Research Environment
  252.      * Eloquence (currently an alpha release)
  253.      * JSRU
  254.      * Klatt-style synthesiser
  255.      * DECTalk
  256.      * Speech Manager and PlainTalk
  257.      * Various Mac Speech Output Applications
  258.      * MacinTalk
  259.      * Monologue by Creative Labs
  260.      * Lernout & Hauspie Text-To-Speech SDK
  261.      * Tinytalk
  262.      * Narrator - narrator.device
  263.      * Infovox Product Range
  264.      * SIMTEL-20
  265.        
  266. Speech Recognition
  267.  
  268.      * HM2007 - Speech Recognition Chip
  269.      * Voice Blaster Ver. 4.0
  270.      * Votan
  271.      * Entropic's HTK (HMM Toolkit)
  272.      * DragonDictate version 3.0
  273.      * DragonDictate for Windows
  274.      * DragonVoiceTools
  275.      * IBM Personal Dictation System
  276.      * Osborne Personal Dictation System (in Australia)
  277.      * VoiceServer for Windows
  278.      * IN3 Voice Command for Windows
  279.      * IN3 Voice Command
  280.      * Phonetic Engine 400 (PE400) - Speech Systems, Inc.
  281.      * SayIt
  282.      * Kurzweil Voice for Windows 1.0
  283.      * D6006 Voice Control Processor
  284.      * Speech Commander - Listen for Windows
  285.      * Voice-Trek 2.0
  286.      * Visus SpeechKit
  287.      * recnet
  288.      * Lotec Speech Recognition Package
  289.      * Myers' Hidden Markov Model software
  290.      * Voice Command Line Interface
  291.      * DATAVOX - French
  292.      * PowerSecretary
  293.      * ICSS system from IBM
  294.      * Creative VoiceAssist
  295.  
  296.  
  297. ===========================================================================
  298.  
  299.    
  300. FAQ SECTION 1 - General
  301.  
  302.   Q1.1: WHAT IS COMP.SPEECH?
  303.   
  304.    Comp.speech is a newsgroup for discussion of speech technology and
  305.    speech science. It covers a wide range of issues from application of
  306.    speech technology, to research, to products and lots more. By nature
  307.    speech technology is an inter-disciplinary field and the newsgroup
  308.    reflects this. However, computer application is the basic theme of the
  309.    group.
  310.    
  311.    The following is a list of topics but does not cover all matters
  312.    related to the field (no order of importance is implied).
  313.      * Speech Recognition - discussion of methodologies, training,
  314.        techniques, results and applications. This should cover the
  315.        application of techniques including HMMs, neural-nets and so on to
  316.        the field.
  317.        
  318.      * Speech Synthesis - discussion concerning theoretical and
  319.        practical issues associated with the design of speech synthesis
  320.        systems.
  321.        
  322.      * Speech Coding and Compression - both research and application
  323.        matters.
  324.        
  325.      * Phonetic/Linguistic Issues - coverage of linguistic and phonetic
  326.        issues which are relevant to speech technology applications. Could
  327.        cover parsing, natural language processing, phonology and prosodic
  328.        work.
  329.        
  330.      * Speech System Design - issues relating to the application of
  331.        speech technology to real-world problems. Includes the design of
  332.        user interfaces, the building of real-time systems and so on.
  333.        
  334.      * Other matters - relevant conferences, jobs, books, software,
  335.        hardware, and products.
  336.        
  337.      _________________________________________________________________
  338.    
  339.   Q1.2: WHERE ARE THE COMP.SPEECH ARCHIVES?
  340.   
  341.    comp.speech is being archived for anonymous ftp.
  342.      * ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/archive/
  343.        
  344.    comp.speech/archive contains the articles as they arrive. Batches of
  345.    100 articles are grouped into a shar file, along with an associated
  346.    file of Subject lines.
  347.    
  348.    Other useful information is also available in comp.speech/info.
  349.      _________________________________________________________________
  350.    
  351.   Q1.3: COMMON ABBREVIATIONS AND JARGON.
  352.      * ANN - Artificial Neural Network.
  353.      * ASR - Automatic Speech Recognition.
  354.      * ASSP - Acoustics Speech and Signal Processing
  355.      * AVIOS - American Voice I/O Society
  356.      * CELP - Code-book Excited Linear Prediction.
  357.      * COLING - Computational Linguistics
  358.      * DTW - Dynamic Time Warping.
  359.      * FAQ - Frequently Asked Questions.
  360.      * HMM - Hidden Markov Model.
  361.      * IEEE - Institute of Electrical and Electronics Engineers
  362.      * JASA - Journal of the Acoustic Society of America
  363.      * LPC - Linear Predictive Coding.
  364.      * LVQ - Learned Vector Quantisation.
  365.      * NLP - Natural Language Processing.
  366.      * NN - Neural Network.
  367.      * TI - Texas Instruments.
  368.      * TIMIT - A large speech corpus from TI and MIT - see Q1.7
  369.      * TTS - Text-To-Speech (i.e. synthesis).
  370.      * VQ - Vector Quantisation.
  371.        
  372.      _________________________________________________________________
  373.    
  374.   Q1.4: WHAT ARE RELATED NEWSGROUPS AND MAILING LISTS?
  375.   
  376.       Newsgroups
  377.       
  378.    comp.ai - Artificial Intelligence newsgroup.
  379.           Postings on general AI issues, language processing and AI
  380.           techniques. Has a good FAQ including NLP, NN and other AI
  381.           information.
  382.           
  383.    comp.ai.nat-lang - Natural Language Processing Group
  384.           Postings regarding Natural Language Processing. Set up to cover
  385.           a broard range of related issues and different viewpoints.
  386.           
  387.    comp.ai.nlang-know-rep - Natural Language Knowledge Representation
  388.           Moderated group covering Natural Language.
  389.           
  390.    comp.ai.neural-nets - discussion of Neural Networks and related
  391.           issues.
  392.           There are often posting on speech related matters - phonetic
  393.           recognition, connectionist grammars and so on.
  394.           
  395.    comp.compression - occasional articles on compression of speech.
  396.           FAQ for comp.compression has some info on audio compression
  397.           standards.
  398.           
  399.    comp.dcom.telecom - Telecommunications newsgroup.
  400.           Has occasional articles on voice products.
  401.           
  402.    comp.dsp - discussion of signal processing - hardware and algorithms
  403.           and more.
  404.           Has a good FAQ posting. Has a regular posting of a
  405.           comprehensive list of Audio File Formats.
  406.           
  407.    comp.multimedia - Multi-Media discussion group.
  408.           Has occasional articles on voice I/O.
  409.           
  410.    sci.lang - Language.
  411.           Discussion about phonetics, phonology, grammar, etymology and
  412.           lots more.
  413.           
  414.    alt.sci.physics.acoustics
  415.           Some discussion of speech production & perception.
  416.           
  417.    alt.binaries.sounds.misc - posting of various sound samples
  418.           
  419.    alt.binaries.sounds.d - discussion about sound samples, recording
  420.           and playback.
  421.           
  422.       Mailing Lists
  423.       
  424.    ECTL - Electronic Communal Temporal Lobe
  425.           Founder & Moderator: David Leip. Moderated mailing list for
  426.           researchers with interests in computer speech interfaces. This
  427.           list serves a broad community including persons from signal
  428.           processing, AI, linguistics and human factors. To subscribe,
  429.           send your name, institute, department, daytime phone and email
  430.           address to:
  431.           
  432.           + ectl-request@snowhite.cis.uoguelph.ca
  433.             
  434.    The ECTL archive site is
  435.           
  436.           + ftp://snowhite.cis.uoguelph.ca/pub/ectl
  437.             
  438.    Prosody Mailing List
  439.           Unmoderated mailing list for discussion of prosody. The aim is
  440.           to facilitate the spread of information relating to the
  441.           research of prosody by creating a network of researchers in the
  442.           field. If you want to participate, send the following one-line
  443.           message to
  444.           
  445.           + listserv@msu.edu
  446.           + subscribe prosody Your Name
  447.             
  448.    foNETiks
  449.           A moderated monthly newsletter distributed by e-mail. It
  450.           carries job advertisements, notices of conferences, and other
  451.           news of general interest to phoneticians, speech scientists and
  452.           others The editors are Linda Shockey and Gerry Docherty. To
  453.           subscribe send the following 1 line message to
  454.           
  455.           + mailbase@mailbase.ac.uk
  456.           + join fonetiks your_first_name your_second_name
  457.             
  458.    Digital Mobile Radio
  459.           Covers lots of areas include some speech topics including
  460.           speech coding and speech compression. Mail Peter Decker
  461.           dec@dfv.rwth-aachen.de to subscribe.
  462.           
  463.      _________________________________________________________________
  464.    
  465.   Q1.5: WHAT ARE RELATED JOURNALS AND CONFERENCES?
  466.   
  467.    Try the following commercially oriented magazine:
  468.      * Voice News - monthly industry newsletter
  469.     Stoneridge Technical Services
  470.     PO Box 1891, Rockville, MD, 20850, USA
  471.     Phone: (301) 424-0114
  472.      * Voice Technology News
  473.      * Voice Processing Magazine (1-800-854-3112)
  474.      * Speech Technology (no longer published)
  475.        
  476.    Try the following technical journals (some contact addresses below):-
  477.      * IEEE Transactions on Speech and Audio Processing (from Jan 93)
  478.      * IEEE Signal Processing Magazine (from Jan 93)
  479.      * IEEE Transactions on Acoustics, Speech, and Signal Processing
  480.        (ASSP) (now obsolete)
  481.      * Computational Linguistics (COLING)
  482.      * Computer Speech and Language
  483.      * Journal of the Acoustical Society of America (JASA)
  484.      * AVIOS Journal
  485.      * ASR News
  486.        
  487.    Try the following conferences:-
  488.      * ICASSP Intl. Conference on Acoustics Speech and Signal Processing
  489.        (IEEE)
  490.      * ICSLP Intl. Conference on Spoken Language Processing
  491.      * EUROSPEECH European Conference on Speech Communication and
  492.        Technology
  493.      * AVIOS American Voice I/O Society Conference
  494.      * SST Australian Speech Science and Technology Conference
  495.        
  496.    Here are a few contact addresses:- 
  497.    
  498.    Publications:
  499.           IEEE Transactions on Speech and Audio Processing (from Jan 93)
  500.           IEEE Transactions on Acoustics, Speech, and Signal Processing
  501.           (ASSP) - now obsolete.
  502.           
  503.    Organization:
  504.           Institute of Electrical and Electronics Engineers (IEEE)
  505.           
  506.    Contact:
  507.           IEEE Service Center
  508.           445 Hoes Lane, PO Box 1331, Piscataway, NJ 08855, USA
  509.           Phone: 1-800-678-IEEE or (201)981-0060 
  510.           
  511.    Publications:
  512.           Computer Speech and Language
  513.           
  514.    Contact:
  515.           Academic Press, Ltd.
  516.           24-28 Oval Rd, London NW1, England
  517.           
  518.    Price:
  519.           $136 (Institutions), $58 (Individuals) 
  520.           
  521.    Publications:
  522.           Association for Computational Linguistics
  523.           
  524.    Organization:
  525.           Association for Computational Linguistics
  526.           MIT Press Journals
  527.           55 Hayward St, Cambridge, MA 02142, USA
  528.           Phone: (617)253-2889
  529.           
  530.      _________________________________________________________________
  531.    
  532.   Q1.6: WHAT RESOURCES ARE AVAILABLE AS HANDICAP AIDS?
  533.   
  534.    Can anyone provide information on speech technology aids for the deaf,
  535.    blind, speech impaired, physically impaired and other groups who may
  536.    benefit from speech technology?
  537.    
  538.     SpeechViewer II
  539.      * Platform: IBM Machines from Mod 25 on.
  540.      * Description: SpeechViewer II is a speech therapy tool. It
  541.        provided graphical feedback of various speech features so that
  542.        speech impaired individuals can improve their speech. It works
  543.        with an audio bandwidth of 7.3 Khz and thus allows the therapist
  544.        to work with sustained vowels and fricatives. A wide range of
  545.        graphics are used to provide adequate variability to hold client
  546.        interest. An extensive set of statistics are gathered which allows
  547.        a therapist to do research or keep therapy records. The speech
  548.        therapy modules are:
  549.           + Awareness - Sound, Loudness, Pitch, Voicing Onset, Voicing
  550.           + Skill Building - Pitch, Voicing, Phonology
  551.           + Patterning - Pitch & Loudness - Waveform & Spectrogram,
  552.             Spectra
  553.           + Clinical Management - Profiles, Models, Client Data
  554.      * Hardware: Requires an IBM M-ACPA (Multimedia-Audio Capture
  555.        Playback Adapter). It has a TI TMS320C25 DSP chip. The input
  556.        sampling rate is 44.1 Khz stereo, 88.2 Khz mono. This is a 16 bit
  557.        card. It has the following jacks: mic in, stereo line in, stereo
  558.        line out, speaker out. Note: This card is being replaced by Mwave
  559.        technology. For more info on Mwave contact Texas Instruments.
  560.      * Price:
  561.           + The software is $2130 list, $1491 educational, part number
  562.             92F2066.
  563.           + The M-ACPA is $370 list, $222 educational, part number
  564.             92F3378.
  565.           + The MicroChannel adapter part number is 92F3379 (same price).
  566.      * Contact: The Psychological Corporation (TPC) [IBM Authorized
  567.        Remarketer]
  568.     Phone: 1-800-228-0752 or contact IBM on 1-800-426-4832.
  569.     
  570.      _________________________________________________________________
  571.    
  572.   Q1.7: WHAT SPEECH DATA IS AVAILABLE?
  573.   
  574.    A wide range of speech databases have been collected. These databases
  575.    are primarily for the development of speech synthesis/recognition and
  576.    for linguistic research.
  577.    
  578.    Some databases are free but most appear to be available for a small
  579.    cost. The databases normally require lots of storage space - do not
  580.    expect to be able to ftp all the data you want.
  581.    
  582.     Phonemic Samples
  583.      * First, some basic data. The following ftp sites have samples of
  584.        English phonemes (American accent I believe) in Sun audio format
  585.        files. See Question 1.8 for information on audio file formats.
  586.           + ftp://sounds.sdsu.edu/.1/phonemes: This ftp site appears to
  587.             be obsolete. Does anyone know a new address?
  588.           + ftp://phloem.uoregon.edu/pub/Sun4/lib/phonemes : There
  589.             appears to be some config problem with this ftp server.
  590.           + ftp://sunsite.unc.edu/pub/multimedia/sun-sounds/phonemes
  591.             
  592.     Linguistic Data Consortium (LDC)
  593.      * Briefly stated, the LDC has been established to broaden the
  594.        collection and distribution of speech and natural language data
  595.        bases for the purposes of research and technology development in
  596.        automatic speech recognition, natural language processing and
  597.        other areas where large amounts of linguistic data are needed.
  598.        Here is list of some of the corpora:
  599.           + The TIMIT and NTIMIT speech corpora
  600.           + The Resource Management speech corpus (RM1, RM2)
  601.           + The Air Travel Information System (ATIS0) speech corpus
  602.           + The Association for Computational Linguistics - Data
  603.             Collection Initiative text corpus (ACL-DCI)
  604.           + The TI Connected Digits speech corpus (TIDIGITS)
  605.           + The TI 46-word Isolated Word speech corpus (TI-46)
  606.           + The Road Rally conversational speech corpora (including
  607.             "Stonehenge" and "Waterloo" corpora)
  608.           + The Tipster Information Retrieval Test Collection
  609.           + The Switchboard speech corpus ("Credit Card" excerpts and
  610.             portions of the complete Switchboard collection)
  611.      * Further resources made available in the first year (or two):
  612.           + The Machine-Readable Spoken English speech corpus (MARSEC)
  613.           + The Edinburgh Map Task speech corpus
  614.           + The Message Understanding Conference (MUC) text corpus of FBI
  615.             terrorist reports
  616.           + The Continuous Speech Recognition - Wall Street Journal
  617.             speech corpus (WSJ-CSR)
  618.           + The Penn Treebank parsed/tagged text corpus
  619.           + The Multi-site ATIS speech corpus (ATIS2)
  620.           + The Air Traffic Control (ATC) speech corpus
  621.           + The Hansard English/French parallel text corpus
  622.           + The European Corpus Initiative multi-language text corpus
  623.             (ECI)
  624.           + The Int'l Labor Organization/Int'l Trade Union multi-language
  625.             text corpus (ILO/ITU)
  626.           + Machine-readable dictionaries/lexical data bases (COMLEX,
  627.             CELEX)
  628.      * Detailed information about the Linguistic Data Consortium is
  629.        available by anonymous from the address below. The files in the
  630.        directory include more detailed information on the individual
  631.        databases.
  632.           + ftp://ftp.cis.upenn.edu/pub/ldc
  633.      * For further information contact
  634.     Linguistic Data Consortium
  635.     441 Williams Hall, University of Pennsylvania
  636.     Philadelphia, PA 19104-6305
  637.     Phone: +1 (215) 898-0464
  638.     Fax: +1 (215) 573-2175
  639.     e-mail: ldc@unagi.cis.upenn.edu
  640.     
  641.     Center for Spoken Language Understanding (CSLU)
  642.      * The ISOLET speech database of spoken letters of the English
  643.        alphabet. The speech is high quality (16 kHz with a noise
  644.        cancelling microphone). 150 speakers x 26 letters of the English
  645.        alphabet twice in random order. The ISOLET data base can be
  646.        purchased for $100 by sending an email request to
  647.        vincew@cse.ogi.edu. (This covers handling, shipping and medium
  648.        costs). The data base comes with a technical report describing the
  649.        data.
  650.      * CSLU has a telephone speech corpus of 1000 English alphabets.
  651.        Callers recite the alphabet with brief pauses between letters.
  652.        This database is available to not-for-profit institutions for
  653.        $100. The data base is described in the proceedings of the
  654.        International Conference on Spoken Language Processing.
  655.           + Contact vincew@cse.ogi.edu if interested.
  656.      * CSLU has released for universities its Continuous English Speech
  657.        Corpus. The corpus contains recorded speech from 690 different
  658.        speakers, with label files at various levels - including word
  659.        level and phonetic labels. The data were collected as part of the
  660.        OGI Multi-language telephone corpus. CSLU provides speech corpora
  661.        to all universities without charge. To order a corpus, print the
  662.        license agreement/order form, complete it, and fax it to the CSLU.
  663.        A description of the corpora and an order form are available by
  664.        anonymous ftp:
  665.           + ftp://speech.cse.ogi.edu/pub/releases
  666.      * Contact: Mike Noel -
  667.     email: noel@cse.ogi.edu Phone: (503) 690-1309
  668.     
  669.     PhonDat - A Large Database of Spoken German
  670.      * The PhonDat continuous speech corpora are now available on CD-ROM
  671.        media (ISO 9660 format).
  672.           + PhonDat I (Diphone Corpus) : 6 CDs (1140.- DM)
  673.           + PhonDat II (Train Enquiries Corpus): 1 CD ( 190.- DM)
  674.      * PhonDat I comprises approx. 20.000, PhonDat II approx. 1500 signal
  675.        files in high quality 16-bit 16 KHz recording. The corpora come
  676.        with documentation containing the orthographic transcription and a
  677.        citation form of the utterances, as well as a detailed file format
  678.        description. A narrow phonetic transcription is available for
  679.        selected files from corpus I and II.
  680.      * For information and orders contact
  681.     Barbara Eisen
  682.     Institut fuer Phonetik
  683.     Schellingstr. 3 / II
  684.     D 80799 Munich 40
  685.     Tel: +49 / 89 / 2180 -2454 or -2758
  686.     Fax: +49 / 89 / 280 03 62
  687.     
  688.     Oxford Acoustic Phonetic Database
  689.      * Available on compact disc, from J. Pickering and B. Rosner. It
  690.        contains data on vowel-consonant and consonant-vowel combinations
  691.        in both stressed and unstressed locations. The language covered
  692.        include French, German, Hungarian, Italian, Japanese, British
  693.        English, Spanish and English. For further information write to
  694.     Electronic Publishing, Oxford University
  695.     Press, Walton Street, Oxford OX2 6DP, UK.
  696.     The ISBN is 0-19-268086-2
  697.      * Contact:
  698.     Prof. B. Rosner
  699.     Dept. of Experimental Psychology
  700.     South Parks Rd, Oxford, OX1 3UD, UK
  701.     email: burton.rosner@wolfson.ox.ac.uk
  702.     
  703.      _________________________________________________________________
  704.    
  705.   Q1.8: SPEECH FILE FORMATS, CONVERSION AND PLAYING.
  706.   
  707.    Section 2 of this FAQ has information on mu-law coding.
  708.    
  709.    A very good and very comprehensive list of audio file formats is
  710.    prepared by Guido van Rossum. The list is posted regularly to comp.dsp
  711.    and alt.binaries.sounds.misc, amongst others. It includes information
  712.    on sampling rates, hardware, compression techniques, file format
  713.    definitions, format conversion, standards, programming hints and lots
  714.    more. It is also available by ftp from
  715.      * ftp://ftp.cwi.nl/pub/audio/AudioFormats.part1,2
  716.        
  717.      _________________________________________________________________
  718.    
  719.   Q1.9: WHAT "SPEECH LABORATORY ENVIRONMENTS" ARE AVAILABLE?
  720.   
  721.    First, what is a Speech Laboratory Environment? A speech lab is a
  722.    software package which provides the capability of recording, playing,
  723.    analysing, processing, displaying and storing speech. Your computer
  724.    will require audio input/output capability. The different packages
  725.    vary greatly in features and capability - best to know what you want
  726.    before you start looking around.
  727.    
  728.    Most general purpose audio processing packages will be able to process
  729.    speech but do not necessarily have some specialised capabilities for
  730.    speech (e.g. formant analysis).
  731.    
  732.    The following article provides a good survey.
  733.      * Read, C., Buder, E., & Kent, R. "Speech Analysis Systems: An
  734.        Evaluation" Journal of Speech and Hearing Research, pp 314-332,
  735.        April 1992.
  736.        
  737.     Entropic Signal Processing System (ESPS) and Waves
  738.      * Platform: Range of Unix platforms.
  739.      * Description: ESPS is a comprehensive set of speech
  740.        analysis/processing tools for the UNIX environment. The package
  741.        includes UNIX commands, and a comprehensive C library (which can
  742.        be accessed from other languages). Waves is a graphical front-end
  743.        for speech processing. Speech waveforms, spectrograms, pitch
  744.        traces etc can be displayed, edited and processed in X windows and
  745.        Openwindows (versions 2 & 3). Waves also includes a signal
  746.        labelling utility which provides multiple feature labelling and
  747.        useful features for fast labelling of large speech databases.
  748.        Entropic also distributes HTK (the Hidden Markov Model Toolkit).
  749.        HTK is described in Section 6 of this FAQ.
  750.      * Cost: On request.
  751.      * Contact:
  752.     Entropic Research Laboratory, Washington Research Laboratory
  753.     600 Pennsylvania Ave, S.E. Suite 202, Washington, D.C. 20003
  754.     (202) 547-1420
  755.     email - info@wrl.epi.com
  756.     
  757.     CSRE: Canadian Speech Research Environment
  758.      * Platform: IBM/AT-compatibles
  759.      * Description: CSRE is a microcomputer-based system designed to
  760.        support speech research. CSRE provides a low-cost facility in
  761.        support of speech research, using mass-produced and
  762.        widely-available hardware. The project is non-profit, and relies
  763.        on the cooperation of researchers at a number of institutions and
  764.        fees generated when the software is distributed. Functions include
  765.        speech capture, editing, and replay; several alternative spectral
  766.        analysis procedures, with color and surface/3D displays; parameter
  767.        extraction/ tracking and tools to automate measurement and support
  768.        data logging; alternative pitch-extraction systems; parametric
  769.        speech (KLATT80) and non-speech acoustic synthesis, with a variety
  770.        of supporting productivity tools; and an experiment generator, to
  771.        support behavioral testing using a variety of common testing
  772.        protocols. A paper about the whole package can be found in:
  773.           + Jamieson D.G. et al, "CSRE: A Speech Research Environment",
  774.             Proc. of the Second Intl. Conf. on Spoken Language
  775.             Processing, Edmonton: University of Alberta, pp. 1127-1130.
  776.      * Hardware: Can use a range of data aqcuisition/DSP hardware
  777.      * Cost: Distributed on a cost recovery basis.
  778.      * Availability: For more information on availability contact
  779.     Krystyna Marciniak
  780.     email march@uwovax.uwo.ca
  781.     Tel (519) 661-3901 Fax (519) 661-3805.
  782.    For technical information
  783.     email ramji@uwovax.uwo.ca
  784.      * Note: Also included in Q5.4 on speech synthesis packages.
  785.        
  786.     OGI Speech Tools
  787.      * Developers from the Center for Spoken Language Understanding
  788.        (CSLU) at the Oregon Graduate Institute of Science and Technology
  789.        (Portland Oregon)
  790.      * Platform: Unix
  791.      * Description: The OGI Speech tools include :
  792.           + An X windows display tool (LYRE) for displaying data in a
  793.             time synchronous fashion for a. the speech signal b.
  794.             spectrograms c. phoneme labels, and other information.
  795.           + A Neural Network (NOPT) training package.
  796.           + An set of C library routines (LIBNSPEECH) for the
  797.             manipulation of speech data, including: a. PLP Analysis, b.
  798.             Rasta PLP Analysis, c. Linear Predictive Coding, d. Mel
  799.             Cepstrum Coding, e. Fast Fourier Transform
  800.           + A set of utilities for converting file formats such as ADC,
  801.             NIST, mu-law, binary files, and ascii. Includes filtering.
  802.           + A database utility (find_phone) to automate speech database
  803.             related enquiries. It allows the user to specify a particular
  804.             label or set of labels in a given context, display all
  805.             occurrences of the label, and relabel the occurrences if
  806.             desired.
  807.           + A Vector-Quantizer based on the Linde Buzo and Gray (LBG)
  808.             algorithm.
  809.           + A set of PERL Scripts which have been used mainly to automate
  810.             the use of the OGI Speech Tools.
  811.           + MAN Pages for all routines and programs developed, as well as
  812.             a User manual in both in postscript and tex format.
  813.      * Misc: Software is written in ANSI C.
  814.      * Availability: By anonymous ftp from
  815.           + ftp://speech.cse.ogi.edu/pub/tools/
  816.      * Contact: Try tools@cse.ogi.edu
  817.        
  818.     Matlab plus Signal Processing Toolbox
  819.      * Platform: Wide range
  820.      * Description: Matlab (MATrix LABoratory) is a technical computing
  821.        environment for numerical computation and visualization based on a
  822.        matrix oriented, interpreted programming language. The programming
  823.        environment provides support for the development of customized
  824.        operations, along with debugging facilities and a graphical user
  825.        interface toolkit. Audio output is provided.
  826.        
  827.        A specialised Signal Processing Toolbox is available which
  828.        provides many functions which are useful for speech analysis. It
  829.        includes filter design, spectral estimation, statistical signal
  830.        processing, waveform generation, and signal and spectrogram
  831.        display.
  832.        
  833.        A specialised Auditory Toolbox is available which contains
  834.        functions useful to people interested in auditory/cochlear models.
  835.        A more detailed description is given in Q1.10.
  836.      * Price: On request.
  837.      * Contact: The Math Works Inc.
  838.     24 Prime Park Way, Natick, MA 01760-1500 USA
  839.     Ph: 1-508-653 1415 Fax: 1-508-653 6284
  840.     Email: info@mathworks.com
  841.      * FTP: ftp://ftp.mathworks.com
  842.      * WWW: http://www.mathworks.com/
  843.        
  844.     Signalyze 3.0 from InfoSignal
  845.      * Platform: Macintosh
  846.      * Description: Signalyze's basic conception revolves around up to
  847.        100 signals, displayed synchronously in HyperCard fashion on
  848.        "cards". The program offers a complement of signal editing
  849.        features, quite a few spectral analysis tools, manual scoring
  850.        tools, pitch extraction routines, a good set of signal
  851.        manipulation tools, and extensive input-output capacity.
  852.        
  853.        Handles multiple file formats: Signalyze, MacSpeech Lab,
  854.        AudioMedia, SoundDesigner II, SoundEdit/MacRecorder, SoundWave,
  855.        three sound resource formats, and ASCII-text. Sound I/O: Direct
  856.        sound input from MacRecorder and similar devices, AudioMedia,
  857.        AudioMedia II and AD IN, some MacADIOS boards and devices, Apple
  858.        sound input (built-in microphone). Sound output via Macintosh
  859.        internal sound, via SoundManager 3.0, some MacADIOS boards and
  860.        devices as well as via the Digidesign 16-bit boards.
  861.        
  862.        It has a range of capabilities for creating, editing and
  863.        manipulating label files with flexibility in labelling format.
  864.      * Compatibility: MacPlus and higher (including II, IIx, IIcx,
  865.        IIci, IIfx, IIvx, IIvi, Portable, all PowerBooks, Centris and
  866.        Quadras). Takes advantage of large and multiple screens and 16/256
  867.        color/grayscales. System 7.0 compatible. Runs in background with
  868.        adjustable priority.
  869.      * Misc: A demo available upon request. Manuals and tutorial
  870.        included. It is available in English, French, and German. An
  871.        UPDATER to version 2.48 is now available in:
  872.           + - The UNIL Gopher server (see last page of InfoSignal News 8)
  873.           + - The LAIP FTP server. Address: MACFL4082.unil.ch, machine
  874.             no. 130.223.104.31
  875.    Also available are a demo program, and current questions and answers.
  876.      * Cost: Individual licence US$350, site license US$500, plus
  877.        shipping. Upgrades from version 2.0 are available.
  878.      * Contact:
  879.     North America - Network Technology Corporation
  880.     91 Baldwin St., Charlestown MA 02129
  881.     Fax: 617-241-5064 Phone: 617-241-9205
  882.    Elsewhere contact
  883.     InfoSignal Inc.
  884.     C.P. 73, 1015 LAUSANNE, Switzerland,
  885.     FAX: +41 21 691-1372,
  886.     Email: 76357.1213@COMPUSERVE.COM.
  887.     
  888.     Kay Elemetrics CSL (Computer Speech Lab) 4300
  889.      * Platform: Minimum IBM PC-AT compatible with extended memory (min
  890.        2MB) with at least VGA graphics. Optimal would be 386 or 486
  891.        machine with more RAM for handling larger amounts of data.
  892.      * Description: Speech analysis package, with optional separate LPC
  893.        program for analysis/synthesis. Uses its own file format for data,
  894.        but has some ability to export data as ascii. The main
  895.        editing/analysis prog (but not the LPC part) has its own macro
  896.        language, making it easy to perform repetitive tasks. Probably not
  897.        much use without the extra LPC program, which also allows
  898.        manipulation of pitch, formant and bandwidth parameters.
  899.        
  900.        Hardware includes an internal DSP board for the PC (requires ISA
  901.        slot), and an external module containing signal processing chips
  902.        which does A/D and D/A conversion.
  903.      * Misc: A programmers kit is available for programming signal
  904.        processing chips (experts only). A speaker and microphone are
  905.        supplied. Manuals are included.
  906.      * Cost: Recently approx 6000 pounds sterling.
  907.      * Contact:
  908.     UK distributors are Wessex Electronics,
  909.     114-116 North Street, Downend, Bristol, B16 5SE
  910.     Tel: 0272 571404.
  911.    In the USA contact:
  912.     Kay Elemetrics Corp,
  913.     12 Maple Avenue, PO Box 2025, Pine Brook, NJ 07058-9798
  914.     Tel:(201) 227-7760
  915.     
  916.     MacSpeech Lab II (MSL II)
  917.      * Platform: Macintosh
  918.      * Description: A sound analysis and acquisition for Macs. MSL II
  919.        delivers the most common functions for speech analysis (FFTs,
  920.        LPCs, f0 extraction, etc.) & produces grayscale spectrographic
  921.        displays. Can be used for various speech technology and phonetic
  922.        training tasks. The software an trade off accuracy and speech.
  923.      * Hardware: Requires MacADIOS ("Macintosh Analog/Digital
  924.        Input/Output System") hardware for speech I/O at 12/16 bits.
  925.      * Misc: Software no longer updated by GW Instruments; MSL
  926.        soft/hardware will not perform input/output on Quadras, for
  927.        example, though analysis seems fine. Known to operate properly on
  928.        systems as high as IIcx & II fx.
  929.      * Cost: $4990 (in May '92 price list; no MSL soft/hardware package
  930.        listed in January '93).
  931.      * Contact:
  932.     GW Instruments
  933.     35 Medford Street, Somerville, MA 02143
  934.     Phone: (617) 625-4096 Fax: (617) 625-1322
  935.     
  936.     N!Power
  937.      * Platform: SUN, DEC and HP workstations.
  938.      * Description: An object-oriented software package with a MOTIF
  939.        GUI interface and a range of functionality for data
  940.        analysis/editing, signal analysis, speech processing, real-time
  941.        A/D and D/A, and 2D/3D interactive graphics. N!Power replaces ILS.
  942.        
  943.        N!Power can provide a Block Diagram user interface, menus,
  944.        pop-ups, and a high-level IEEE standard symbolic scripting
  945.        language. You can customize the blocks, menus and pop-ups with
  946.        mouse point-and-click operations.
  947.      * Contact:
  948.     Signal Technology, Inc.
  949.     104 W. Anapamu, Suite J, Santa Barbara, CA 93101-3126
  950.     Phone: 805-899-8300 FAX: 805-899-4344
  951.     email: larry@signal.com
  952.     
  953.     Ptolemy
  954.      * Platform: Sun SPARC, DecStation (MIPS), HP (hppa).
  955.      * Description: Ptolemy provides a highly flexible foundation for
  956.        the specification, simulation, and rapid prototyping of systems.
  957.        It is an object oriented framework within which diverse models of
  958.        computation can co-exist and interact. Ptolemy can be used to
  959.        model entire systems.
  960.        
  961.        Ptolemy has been used for a broad range of applications including
  962.        signal processing, telecomunications, parallel processing,
  963.        wireless communications, network design, radio astronomy, real
  964.        time systems, and hardware/software co-design. Ptolemy has also
  965.        been used as a lab for signal processing and communications
  966.        courses. Ptolemy has been developed at UC Berkeley over the past 3
  967.        years. Further information, including papers and the complete
  968.        release notes, is available from the FTP site.
  969.      * Cost: Free
  970.      * Availability: The source code, binaries, and documentation are
  971.        available by anonymous ftp from
  972.           + ftp://ptolemy.berkeley.edu/pub/README
  973.             
  974.     Khoros
  975.      * Description: Public domain image processing package with a basic
  976.        DSP library. Not particularly applicable to speech, but not bad
  977.        for the price.
  978.      * Cost: Free
  979.      * Availability: By anonymous ftp from ftp://pprg.eece.unm.edu
  980.        
  981.     SpeechViewer II
  982.      * Description: Speech Therapy Tool. See the detailed description
  983.        in the handicap section - Q1.6.
  984.        
  985.      _________________________________________________________________
  986.    
  987.   Q1.10: MISCELANEOUS SOFTWARE AND OTHER RESOURCES.
  988.   
  989.     CMU dictionary
  990.      * Description: Phonemic transcriptions of 100,000 words with
  991.        American English pronunciation.
  992.      * Availability: By anonymous ftp from the directory
  993.           + ftp://ftp.cs.cmu.edu/project/fgdata/dict
  994.    with the files README, cmudict.0.2.Z, cmulex.0.1.Z, phoneset.0.1
  995.        
  996.     Dictionary
  997.      * Description: A comprehensive word list which should contain most
  998.        common American words, abbreviations, hyphenations, and even
  999.        incorrect spellings. The word lists were compiled from a number of
  1000.        sources: commercial news services, UseNet news postings, existing
  1001.        dictionaries, name lists, company lists, UNIX man pages, project
  1002.        Gutenberg's E-texts, project Wordnet, received mailings, etc. The
  1003.        current size is 460,000 words.
  1004.      * Availability: By anonymous ftp from
  1005.           + ftp://wocket.vantage.gte.com:/pub/standard_dictionary
  1006.    
  1007.        Note 1: There seems to be some sort of network problem reaching
  1008.        the server.
  1009.        Note 2: There is a README file which explains the file formats.
  1010.        
  1011.     BEEP dictionary
  1012.      * Description: Phonemic transcriptions of 100,000 English words.
  1013.        (British English pronunciations)
  1014.      * Availability: By anonymous ftp from the file
  1015.           + svr-ftp.eng.cam.ac.uk/comp.speech/data/beep-0.3.tar.Z
  1016.             
  1017.     CUVOLAD dictionary
  1018.      * Description: Computer Usable Version of the Oxford Advanced
  1019.        Learner's Dictionary Has British English pronunciations and parts
  1020.        of speech
  1021.      * Availability: By anonymous ftp from the directory
  1022.           + ftp://black.ox.ac.uk/ota/dicts/710
  1023.             
  1024.     MRC database
  1025.      * Description: The Medical Research Council Psycholinguistic
  1026.        Database Has British English pronunciations, parts of speech, word
  1027.        frequency and lots of other information.
  1028.      * Availability: By anonymous ftp from the directory
  1029.           + ftp://black.ox.ac.uk/ota/dicts/1054
  1030.             
  1031.     Network Audio System Release 1.1
  1032.      * Platforms: Various (includes SunOS, Solaris, SGI)
  1033.      * Description: A device-independent mechanism for transferring,
  1034.        playing and recording audio signals over a network. Has a range of
  1035.        features suited to networks.
  1036.      * Cost: Free
  1037.      * Availability: By anonymous ftp from
  1038.           + ftp://ftp.x.org:/contrib/audio/nas/netaudio-1.2.tar.gz
  1039.    Also available in the same directory are document files and some
  1040.        sample sounds.
  1041.        
  1042.     AF version AF3R1
  1043.      * Platforms: DEC workstations (Alpha and MIPS), SparcStation, SGI
  1044.      * Description: The AF System is a device-independent
  1045.        network-transparent system including client applications and audio
  1046.        servers. With AF, multiple audio applications can run
  1047.        simultaneously, sharing access to the actual audio hardware.
  1048.        
  1049.        The AF3R1 distribution of AF includes server support for Digital
  1050.        RISC systems running Ultrix, Digital Alpha AXP systems running
  1051.        OSF/1, SGI Indigo running IRIX 4.0.5, Sun Microsystems
  1052.        SPARCstations running SunOS 4.1.3, and Sun Microsystems
  1053.        SPARCstations running Solaris 2.3. The servers support audio
  1054.        hardware ranging from the built-in CODEC audio on SPARCstations
  1055.        and Personal DECstations to 48 KHz stereo audio using the DECaudio
  1056.        TURBOchannel module or the SPARCstation DBRI interface
  1057.      * Availability: The source kit is distributed by anonymous ftp
  1058.        from
  1059.           + ftp://crl.dec.com/pub/DEC/AF
  1060.      * Contact: af-request@crl.dec.com
  1061.           + http://www.research.digital.com/CRL/projects/AF/home.html
  1062.             
  1063.     NEVOT (1.4v) from AT&T; BL
  1064.      * Platforms: Sun Sparc Station (SunOS 4.1.x) and Silicon Graphics
  1065.      * Description: Audio-conferencing tool which supports both
  1066.        point-to-point and broadcasting of audio using multicast IP. Audio
  1067.        encoding:
  1068.           + PCM 64kb/s 8-bits u-law encoded 8KHz PCM (G.711)
  1069.           + ADPCM 32 kb/s [Sun only] (G.721)
  1070.           + DVI ADPCM 32 kb/s
  1071.           + ADPCM 24 kb/s [Sun only] (G.723)
  1072.           + CELP 4.8 kb/s
  1073.           + LPC 2.4 kb/s
  1074.    Source is available.
  1075.      * Availability: by anonymous ftp from
  1076.           + ftp://gaia.cs.umass.edu/pub/hgschulz/nevot
  1077.      * Contact: Henning Schulzrinne (hgs@researh.att.com)
  1078.        
  1079.     Human Audio Perception Document
  1080.      * Description: Document prepared by Argiris Kranidiotis on the
  1081.        human audio perception system. It lists a number of references,
  1082.        gives plenty of numbers and some equations.
  1083.      * Availability: by anonymous ftp from the comp.speech archive site
  1084.           +
  1085.             ftp://svr-ftp.eng.cam.ac.uk/comp.speech/info/HumanAudioPercept
  1086.             ion
  1087.      * Contact:
  1088.     Argiris A. Kranidiotis
  1089.     University Of Athens, Informatics Department
  1090.     email: akra@zeus.di.uoa.ariadne-t.gr
  1091.     
  1092.     Homophone List
  1093.      * A list of homophones in General American English is available by
  1094.        anonymous FTP from the comp.speech archive site:
  1095.           +
  1096.             ftp://svr-ftp.eng.cam.ac.uk/comp.speech/data/homophones-1.01.t
  1097.             xt
  1098.             
  1099.     Auditory Toolbox for Matlab
  1100.      * Description: This toolbox provides extensions to Matlab which
  1101.        are useful to people interested in auditory/cochlear modeling.
  1102.        [Matlab is described is the previous section.] This toolbox has
  1103.        been tested on both Macintosh and Unix computers. It includes the
  1104.        following major models:
  1105.           + Lyon's Passive Long Wave Cochlear Model (our conventional
  1106.             model)
  1107.           + Patterson-Holdsworth ERB Filter bank with Meddis Hair cell
  1108.           + Seneff's Auditory Model (Stages I and II)
  1109.           + MFCC (Mel-scale frequency cepstral coefficients from the ASR
  1110.             world)
  1111.           + Spectrogram
  1112.           + Correlogram generation and pitch modeling
  1113.           + Simple vowel synthesis
  1114.      * Availability: By anonymous FTP from the following site:
  1115.           + ftp://ftp.apple.com/pub/malcolm
  1116.    The following files are available:
  1117.           + 419487 AuditoryToolbox.mif.Z
  1118.           + 1372976 AuditoryToolbox.psc.Z
  1119.           + 573215 AuditoryToolbox.sea.hqx
  1120.           + 92160 AuditoryToolbox.tar
  1121.           + 36405 AuditoryToolbox.tar.Z
  1122.    The ".mif.Z" file is a Unix compressed version of the FrameMaker
  1123.        documentation. The ".psc.Z" file is a Unix compressed version of
  1124.        the Postscript documentation. The ".tar" and ".tar.Z" files are
  1125.        Unix TAR archives containing all of the m-functions and C-MEX
  1126.        source code. Finally, the ".sea.hqx" file is a Macintosh
  1127.        self-extracting archive that has been encoded using BinHex. We do
  1128.        provide precompiled version of the three MEX function for the
  1129.        Macintosh.
  1130.      * Misc: Our lawyers ask you to remind you that there is no
  1131.        warranty. We've done some testing but we undoubtably missed
  1132.        things.
  1133.      * Contact:
  1134.     Malcolm Slaney: Interval Resarch.
  1135.     Email: malcolm@interval.com
  1136.     
  1137.     Auditory Modeller 1
  1138.      * Description: John Holdsworth's implementation of a gammatone
  1139.        filter bank and Roy Patterson's spiral model, in C (with X-window
  1140.        display).
  1141.      * Availability: By anonymous ftp from
  1142.           + ftp://ftp.mrc-apu.cam.ac.uk/pub/aim
  1143.             
  1144.     Auditory Modeller 2
  1145.      * Description: Lowel O'Mard's implementation of peripheral
  1146.        filtering, Ray Meddis's hair cell model and other stuff in C (as a
  1147.        library of routines).
  1148.      * Availability: By anonymous ftp from
  1149.           + ftp://suna.lut.ac.uk/public/hulpo/lutear
  1150.             
  1151.      _________________________________________________________________
  1152.  
  1153.  
  1154.  
  1155.  
  1156. Andrew Hunt
  1157.   ---
  1158. Speech Technology Research Group        Ph:  61-2-351 4509
  1159. Dept. of Electrical Engineering            Fax: 61-2-351 3847
  1160. University of Sydney, NSW, 2006, Australia    email: andrewh@speech.su.oz.au
  1161.  
  1162.