home *** CD-ROM | disk | FTP | other *** search
/ Danny Amor's Online Library / Danny Amor's Online Library - Volume 1.iso / html / faqs / faq / comp-speech-faq / part3 < prev   
Encoding:
Text File  |  1995-07-25  |  55.8 KB  |  1,200 lines

  1. Subject: comp.speech Frequently Asked Questions - part 3/3
  2. Newsgroups: comp.speech,comp.answers,news.answers
  3. From: andrewh@speech.su.oz.au (Andrew Hunt)
  4. Date: 10 Nov 1994 01:29:16 GMT
  5.  
  6. Archive-name: comp-speech-faq/part3
  7. Last-modified: 1994/11/04
  8.  
  9.  
  10.               COMP.SPEECH FAQ POSTING - PART 3/3
  11.  
  12.  
  13. [Note: this document has been automatically extracted from
  14. a WWW site.  This may introduce some formatting errors.]
  15.  
  16.  
  17.  
  18. ===========================================================================
  19.  
  20.    
  21. FAQ SECTION 5 - Speech Synthesis
  22.  
  23.   Q5.1: WHAT IS SPEECH SYNTHESIS?
  24.   
  25.    Speech synthesis is the task of transforming written input to spoken
  26.    output. The input can either be provided in a graphemic/orthographic
  27.    or a phonemic script, depending on its source.
  28.      _________________________________________________________________
  29.    
  30.   Q5.2: HOW CAN SPEECH SYNTHESIS BE PERFORMED?
  31.   
  32.    There are several algorithms. The choice depends on the task they're
  33.    used for. The easiest way is to just record the voice of a person
  34.    speaking the desired phrases. This is useful if only a restricted
  35.    volume of phrases and sentences is used, e.g. messages in a train
  36.    station, or schedule information via phone. The quality depends on the
  37.    way recording is done.
  38.    
  39.    More sophisticated but worse in quality are algorithms which split the
  40.    speech into smaller pieces. The smaller those units are, the less are
  41.    they in number, but the quality also decreases. An often used unit is
  42.    the phoneme, the smallest linguistic unit. Depending on the language
  43.    used there are about 35-50 phonemes in western European languages,
  44.    i.e. there are 35-50 single recordings. The problem is combining them
  45.    as fluent speech requires fluent transitions between the elements. The
  46.    intellegibility is therefore lower, but the memory required is small.
  47.    
  48.    A solution to this dilemma is using diphones. Instead of splitting at
  49.    the transitions, the cut is done at the center of the phonemes,
  50.    leaving the transitions themselves intact. This gives about 400
  51.    elements (20*20) and the quality increases.
  52.    
  53.    The longer the units become, the more elements are there, but the
  54.    quality increases along with the memory required. Other units which
  55.    are widely used are half-syllables, syllables, words, or combinations
  56.    of them, e.g. word stems and inflectional endings.
  57.      _________________________________________________________________
  58.    
  59.   Q5.3: WHAT ARE SOME GOOD REFERENCES/BOOKS ON SYNTHESIS?
  60.   
  61.    The following are good introductory books/articles.
  62.      * Douglas O'Shaughnessy -- Speech Communication: Human and Machine
  63.        Addison Wesley series in Electrical Engineering: Digital Signal
  64.        Processing, 1987.
  65.      * D. H. Klatt, "Review of Text-To-Speech Conversion for English",
  66.        Jnl. of the Acoustic Society of America (JASA), v82, Sept. 1987,
  67.        pp 737-793.
  68.      * I. H. Witten. Principles of Computer Speech. (London: Academic
  69.        Press, Inc., 1982).
  70.      * John Allen, Sharon Hunnicut and Dennis H. Klatt, "From Text to
  71.        Speech: The MITalk System", Cambridge University Press, 1987.
  72.        
  73.      _________________________________________________________________
  74.    
  75.   Q5.4: WHAT SPEECH SYNTHESIS SOFTWARE/HARDWARE IS AVAILABLE?
  76.   
  77.    Please email any updates, corrections or additions to the following
  78.    list. The range of commercially available synthesis software is
  79.    growing rapidly so any help in keeping up to date will be appreciated.
  80.    
  81.     Orator Text-to-Speech Synthesizer
  82.      * Platform: SUN SPARC, Decstation 5000. Portable to other UNIX
  83.        platforms.
  84.      * Description: Sophisticated speech synthesis package. Has text
  85.        preprocessing (for abbreviations, numbers), acronym citation
  86.        rules, and human-like spelling routines. High accuracy for
  87.        pronunciation of names of people, places and businesses in
  88.        America, text-to-speech translation for common words; rules for
  89.        stress and intonation marking, based on natural-sounding
  90.        demisyllable synthesis; various methods of user control and
  91.        customization at most stages of processing. Currently, ORATOR is
  92.        most appropriate for applications containing a large component of
  93.        names in the text, and requires some amount of user- specified
  94.        text-preprocessing to produce good quality speech for general
  95.        text.
  96.      * Hardware: Standard audio output of SPARC, or Decstation audio
  97.        hardware. At least 16M of memory recommended.
  98.      * Cost: Binary License: $5,000. Source license for porting or
  99.        commercial use: $30,000.
  100.      * Availability: Contact Bellcore's Licensing Office
  101.        (1-800-527-1080) or email John Zilg jzilg@cc.bellcore.com
  102.        
  103.     Text to phoneme program (1)
  104.      * Platform: unknown
  105.      * Description: Text to phoneme program. Based on Naval Research
  106.        Lab's set of text to phoneme rules.
  107.      * Availability: by anonymous ftp
  108.           + ftp://shark.cse.fau.edu/pub/src/phon.tar.Z
  109.             
  110.     Text to phoneme program (2)
  111.      * Platform: unknown
  112.      * Description: Text to phoneme program.
  113.      * Availability: by anonymous ftp
  114.           + ftp://wuarchive.wustl.edu/mirrors/unix-c/utils/phoneme.c
  115.             
  116.     Text to phoneme program (3)
  117.      * Description: A public domain version of the same Naval Research
  118.        Lab text to phoneme rules.
  119.      * Availability: By anonymous ftp
  120.           +
  121.             ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/sources/english2ph
  122.             oneme.shar
  123.             
  124.     Text to speech program
  125.      * Description: A implementation of the Klatt phoneme to waveform
  126.        speech synthesiser.
  127.      * Availability: By anonymous ftp
  128.           +
  129.             ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/sources/klatt-0.02
  130.             .tar.Z
  131.             
  132.     "Speak" - a Text to Speech Program
  133.      * Platform: Sun SPARC
  134.      * Description: Text to speech program based on concatenation of
  135.        pre-recorded speech segments. A function library can be used to
  136.        integrate speech output into other code.
  137.      * Hardware: SPARC audio I/O
  138.      * Availability: by anonymous ftp
  139.           + ftp://wilma.cs.brown.edu/pub/speak.tar.Z
  140.             
  141.     TheBigMouth - a Text to Speech Program
  142.      * Platform: NeXT
  143.      * Description: Text to speech program based on concatenation of
  144.        pre-recorded speech segments. NeXT equivalent of "Speak" for Suns.
  145.      * Availability: try NeXT archive sites such as
  146.        sonata.cc.purdue.edu.
  147.        
  148.     TextToSpeech Kit
  149.      * Platform: NeXT Computers
  150.      * Description: The TextToSpeech Kit does unrestricted conversion
  151.        of English text to synthesized speech in real-time. The user has
  152.        control over speaking rate, median pitch, stereo balance, volume,
  153.        and intonation type. Text of any length can be spoken, and
  154.        messages can be queued up, from multiple applications if desired.
  155.        Real-time controls such as pause, continue, and erase are
  156.        included. Pronunciations are derived primarily by dictionary
  157.        look-up. The Main Dictionary has nearly 100,000 hand-edited
  158.        pronunciations which can be supplemented or overridden with the
  159.        User and Application dictionaries. A number parser handles numbers
  160.        in any form. A letter-to-sound knowledge base provides
  161.        pronunciations for words not in the Main or customized
  162.        dictionaries. Dictionary search order is under user control.
  163.        Special modes of text input are available for spelling and
  164.        emphasis of words or phrases. The actual conversion of text to
  165.        speech is done by the TextToSpeech Server. The Server runs as an
  166.        independent task in the background, and can handle up to 50 client
  167.        connections.
  168.      * Misc: The TextToSpeech Kit comes in two packages: the Developer
  169.        Kit and the User Kit. The Developer Kit enables developers to
  170.        build and test applications which incorporate text-to-speech. It
  171.        includes the TextToSpeech Server, the TextToSpeech Object, the
  172.        pronunciation editor PrEditor, several example applications,
  173.        phonetic fonts, example source code, and developer documentation.
  174.        The User Kit provides support for applications which incorporate
  175.        text-to-speech. It is a subset of the Developer Kit.
  176.      * Hardware: Uses standard NeXT Computer hardware.
  177.      * Cost:
  178.           + TextToSpeech User Kit: $175 CDN ($145 US)
  179.           + TextToSpeech Developer Kit: $350 CDN ($290 US)
  180.           + Upgrade from User to Developer Kit: $175 CDN ($145 US)
  181.      * Availability: Trillium Sound Research
  182.     1500, 112 - 4th Ave. S.W., Calgary, Alberta, Canada, T2P 0H3
  183.     Tel: (403) 284-9278 Fax: (403) 282-6778
  184.     Order Desk: 1-800-L-ORATOR (US and Canada only)
  185.     Email: TTSInfo@trillium.ab.ca
  186.     
  187.     SGI Developers Toolbox Synthesiser
  188.      * Platform: SGI
  189.      * Description: The SGI Developer Toolbox 4.0 CDROM contains a
  190.        basic public domain text-to-speech program in the publics/speak
  191.        directory. The directory includes man pages and source.
  192.      * Availability: on the SGI Developer Toolbox 4.0 CDROM
  193.        
  194.     rsynth
  195.      * Platform: Various (including Sun, Linux, NeXT, SGI)
  196.      * Description: Text-to-speech converter produced by combination of
  197.        various public-domain pieces.
  198.      * Price: Free
  199.      * Availability: by anonymous ftp from
  200.           +
  201.             ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/sources/rsynth-1.0
  202.             .tar.Z
  203.           +
  204.             ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/sources/rsynth-1.0
  205.             .tar.gz
  206.             
  207.     SENSYN speech synthesizer
  208.      * Platform: PC, Mac, Sun, and NeXt
  209.      * Rough Cost: $300
  210.      * Description: This formant synthesizer produces speech waveform
  211.        files based on the (Klatt) KLSYN88 synthesizer. It is intended for
  212.        laboratory and research use. Note that this is NOT a
  213.        text-to-speech synthesizer, but creates speech sounds based upon a
  214.        large number of input variables (formant frequencies, bandwidths,
  215.        glottal pulse characteristics, etc.) and would be used as part of
  216.        a TTS system. Includes full source code.
  217.      * Availability: Sensimetrics Corporation
  218.     64 Sidney Street, Cambridge MA 02139.
  219.     Fax: (617) 225-0470; Tel: (617) 225-2442.
  220.     Email: sensimetrics@sens.com
  221.     
  222.     spchsyn.exe
  223.      * Platform: PC?
  224.      * Availability: By anonymous ftp as a self extracting DOS archive.
  225.           +
  226.             ftp://evans.ee.adfa.oz.au/mirrors/tibbs/applications/spchsyn.e
  227.             xe
  228.      * Requirements: May require special TI product(s), but all source
  229.        is there.
  230.        
  231.     CSRE: Canadian Speech Research Environment
  232.      * Platform: PC
  233.      * Cost: Distributed on a cost recovery basis.
  234.      * Description: CSRE is a software system which includes in
  235.        addition to the Klatt speech synthesizer, SPEECH ANALYSIS and
  236.        EXPERIMENT CONTROL SYSTEM. A paper about the whole package can be
  237.        found in:
  238.           + Jamieson D.G. et al, "CSRE: A Speech Research Environment",
  239.             Proc. of the Second Intl. Conf. on Spoken Language
  240.             Processing, Edmonton: University of Alberta, pp. 1127-1130.
  241.      * Hardware: Can use a range of data aqcuisition/DSP hardware.
  242.      * Availability: For more information contact
  243.     Krystyna Marciniak
  244.     email march@uwovax.uwo.ca
  245.     Tel (519) 661-3901 Fax (519) 661-3805.
  246.    For technical information email ramji@uwovax.uwo.ca
  247.      * Note: A more detailed description is given in Section 1.9 on
  248.        speech environments.
  249.        
  250.     Eloquence (currently an alpha release)
  251.      * Platform: Windows and Solaris
  252.      * Description: Software based text-to-speech package. Generates
  253.        waveforms completely algorithmically instead of by concatenating
  254.        waveforms, for maximum flexibility and naturalism. For instance,
  255.        when the user requests a deeper voice, the software simulates a
  256.        larger vocal tract, instead of simply pitch-shifting samples.
  257.        
  258.        Uses high-level linguistic parsing, which obviates the need for a
  259.        huge dictionary. Handles numbers, acronyms, currency, etc.
  260.        Includes a set of annotation symbols, for placing stress on
  261.        particular words, expressing excitement/boredom, etc. Also allows
  262.        phonetic input. The final version, including support for Windows
  263.        DDE and OLE and UNIX Sockets, will be released by the end of 1994.
  264.        
  265.        Produces male and female voices for General American English.
  266.        Dialects under development include Alabama, Brooklyn, and Boston.
  267.      * Price: $5000 (unconfirmed)
  268.      * Availability:
  269.     Eloquent Technology, Inc.
  270.     2389 North Triphammer Road
  271.     Ithaca, NY 14850
  272.     Ph: (607) 607-266-7025 Fax: (607) 607-266-7030
  273.     Email: eti@plab.dmll.cornell.edu
  274.     
  275.     JSRU
  276.      * Platform: UNIX and PC
  277.      * Cost: 100 pounds sterling (from academic institutions and
  278.        industry)
  279.      * Description: A C version of the JSRU system, Version 2.3 is
  280.        available. It's written in Turbo C but runs on most Unix systems
  281.        with very little modification. A Form of Agreement must be signed
  282.        to say that the software is required for research and development
  283.        only.
  284.      * Contact: Dr. E.Lewis eric.lewis@uk.ac.bristol)
  285.        
  286.     Klatt-style synthesiser
  287.      * Platform: Unix
  288.      * Cost: Free
  289.      * Description: Software posted to comp.speech in late 1992.
  290.      * Availability: By anonymous ftp from the comp.speech archives
  291.           +
  292.             ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/sources/klatt-0.02
  293.             .tar.Z
  294.             
  295.     DECTalk
  296.      * Description: Speech synthesis hardware and software. Detailed
  297.        information on DECtalk and other DEC products is available on a
  298.        World-Wide Web site.
  299.           + http://www.digital.com/info.html
  300.    For specific information on DECtalk, check out this www url:
  301.           +
  302.             http://www.digital.com/archive/pub/Digital/info/Customer-Updat
  303.             e/940620005.txt
  304.             
  305.     Speech Manager and PlainTalk
  306.      * Platform: Macintosh
  307.      * Cost: Free
  308.      * Description: Apple's new text-to-speech system extension(s) that
  309.        enable applications (listed below) to perform text-to-speech
  310.        conversion. The Speech Manager runs on most Macs, but PlainTalk
  311.        (and the high quality voices) requires a 68020 Mac or better.
  312.      * Availability: By anonymous ftp from:
  313.           + ftp://ftp.apple.com/dts/mac/sys.soft/speech
  314.    There are 3 files in this directory:
  315.        
  316.         6273632 Aug 14 22:51 macintalk-pro.hqx
  317.                 PlainTalk Text-To-Speech 1.0 speech synthesizer extension
  318.                 (includes Female Voice, Compressed); TTS Female Voice;
  319.                 TTS Male Voice; and TTS Male Voice, Compressed. Requires
  320.                 68020 or better!
  321.                 
  322.         370108 Aug 13 04:30 speech-manager-docs.hqx
  323.                 Apple DocViewer format (Inside Macintosh style, no
  324.                 installation instructions - just drag everything onto
  325.                 your closed System Folder).
  326.                 
  327.         262569 Aug 7 07:01 speech-manager.hqx
  328.                 Speech Manager 1.1.1 (includes Marvin's voice) and
  329.                 MacInTalk Voices 1.1.1 (9 more voices). Runs most Macs.
  330.                 
  331.     Various Mac Speech Output Applications
  332.      * Platform: Macintosh
  333.      * Cost: Free (except for At Ease)
  334.      * Description: Some of the Speech Manager aware text-to-speech
  335.        (TTS) applications, etc. are listed below (there are more on the
  336.        Apple Developer CD-ROMs).
  337. Application, etc.  Source            Comments
  338. _________________ ________  _________________________________________________
  339. AddressSpeech     info-mac  4D talking address book (from Speech Pack 2.0)
  340. At Ease 2.0    MacWarehouse Friendly desktop that speaks file names
  341. At Ease 2.0 WG MacWarehouse Friendly desktop that speaks file names
  342. Eliza 3.1            AOL    Talking Eliza (Rogerian psych therapist)
  343. FB speech      Inside Basic Mag, volume 3, no. 6. FutureBasic demo
  344. FB Speech demo Inside Basic Mag, volume 3, no. 7. FutureBasic demo
  345. Fortune 1.1       info-mac  Like a talking UNIX fortune command - slick
  346. Homer 0.92d9  zaphod.ee.pitt.edu  GUI IRC client, assign nicks voices - slick
  347. MacMessage 1.0  FirstClassBBS  Share talking messages/customizable startup
  348. Say               info-mac  MPW Tool which converts standard input to speech
  349. ScriptTools 1.2   info-mac  Write AppleScript scripts to say text messages
  350. Siege Watch 1.01f info-mac  Wryly political speaking clock
  351. SoToSpeak1.0.0b10 info-mac  Two voice conversation (also see Fortune's About)
  352. Speak It!         info-mac  Type in a message and have it spoken
  353. Speaker 1.11      info-mac  Simple text file editor, speaks on CR, macros
  354. Speecher 1.2.1    info-mac  Customizable word pronunciation/substitution
  355. SpeechManagerdemo info-mac  Command line interface, C source, aka -explorer
  356. Speech Pack 2.0   info-mac  4th Dimension external, add speech to database
  357. SpeechUnitEx      info-mac  Pascal source code for speech in Lab 7
  358. speek-02b         info-mac  Speech XCMD for HyperCard
  359. TalkingClockPro2.0info-mac  AppleScriptable talking clock extension (2.0b0)
  360. TeachText 7.2      AV Mac   Apple's talking TeachText (simple editor w/QT)
  361. Tex-Edit 1.9         AOL    Talking word processor, McSink like, modeming
  362. VoiceDemo 1.0.1   info-mac  Bare bones phrase talker
  363. Welcome!v1.3.1    info-mac  A talking Welcome to Macintosh startup
  364. ?                     ?     Talking Plug-In-Module for MS Word 5,
  365.                                experimental, unsupported, buggy, beware!
  366. Speech Rhythms       AOL    A cool text file for one of the above apps
  367. _____
  368.      * Sources:
  369.           + AOL = America Online
  370.           + info-mac = {ftp sumex-aim.stanford.edu, ftp
  371.             wuarchive.wustl.edu, et al.}
  372.           + MacWarehouse = (800) 255-6227
  373.      * Misc: Apple's work in spoken language technologies and systems
  374.        is described in:
  375.           + Lee, Kai-Fu. "The Conversational Computer: An Apple
  376.             Perspective." (Keynote Speech) In Proc. Eurospeech in Berlin,
  377.             September, 1993.
  378.             
  379.     MacinTalk
  380.      * Platform: Macintosh
  381.      * Cost: Free
  382.      * Description: Formant based speech synthesis. There is also a
  383.        program called "tex-edit" which apparently can pronounce English
  384.        sentences reasonably using Macintalk.
  385.      * Note: MacinTalk doesn't run reliably on Macintosh's with new
  386.        sound hardware under the lastest OS (System 7.1 w/HUD 2.0). More
  387.        recent software is listed above.
  388.      * Availability: By anonymous ftp from many archive sites (have a
  389.        look on archie if you can). tex-edit is on many of the same sites.
  390.        Try
  391.           +
  392.             ftp://wuarchive.wustl.edu/mirrors2/info-mac/Old/card/macintalk
  393.             .hqx
  394.           +
  395.             ftp://wuarchive.wustl.edu/mirrors2/info-mac/Old/card/macintalk
  396.             -stack.hqx
  397.           +
  398.             ftp://wuarchive.wustl.edu/mirrors2/info-mac/app/tex-edit-15.hq
  399.             x
  400.             
  401.     Monologue by Creative Labs
  402.      * Platform: PC Windows plus SoundBlaster 16
  403.      * Cost: $99.00 or free with some MultiMedia packages
  404.      * Description: Phoneme based speech synthesis software which
  405.        provides output on Sound Blaster compatible audio cards. It
  406.        includes a dictionary of words that are "exceptions" together with
  407.        a a dictionary manager for modifying those words. It can be used
  408.        as a stand alone program with Windows' Clipboard or as a DDE
  409.        server dynamically linked (DLL) to a program you write.
  410.      * Cost: $99.00 or free with some MultiMedia packages
  411.      * Contact:
  412.     Creative Labs Inc.
  413.     1901 McCarthy Boul, Milpitas, CA 95035, USA
  414.     Tel: 408-428-6622 Fax: 408-428-6633 BBS: 408-428-6660
  415.     OR Creative Technology Ltd.
  416.     67 Ayer Rajah Crescent #03-18, Singapore 0513
  417.     Tel: 65-870-0433 Fax: 65-773-0353 BBS: 65-776-2423
  418.     
  419.     Lernout & Hauspie Text-To-Speech SDK
  420.      * Platform: IBM-Compatible
  421.      * Description: The L&H; Text-to-Speech software developers kit is
  422.        able to integrate text-to-speech technology with your own or
  423.        existing PC applications under Microsoft Windows 3.1. This
  424.        software will allow conversion of written text into clear human
  425.        sounding synthetic speech.
  426.      * Requirements: IBM-compatible PC 386 DX(33Mhz) or higher, 8Mb
  427.        RAM, MS DOS 5.0(or higher), MS Windows 3.1 (or higher), Compiler
  428.        and linker: Microsoft(R) Visual C++ or Borland C++, Windows(TM)
  429.        3.1 compatible sound card, preferably 16 bit e.g. Soundblaster,
  430.        Windows Sounds System, Pro Audio Spectrum
  431.      * Price: Unconfirmed $1,999 per copy, and $499 per each additional
  432.        language (American English, French, German, or Spanish).
  433.      * Contact: USA (617) 932-4118
  434.        
  435.     Tinytalk
  436.      * Platform: PC
  437.      * Description: Shareware package is a speech 'screen reader' which
  438.        is used by many blind users.
  439.      * Availability: By anonymous ftp
  440.           + ftp://handicap.shel.isc-br.com/speech
  441.    Get the files ttexe166.zip and ttdoc166.zip.
  442.        
  443.     Narrator - narrator.device
  444.      * Platform: Amiga
  445.      * Description: Formant based speech synthesis. Includes a
  446.        Engish-to-phoneme translation library, and a SPEAK: pseudo-device
  447.        for speech output.
  448.      * Hardware: Standard Amiga hardware
  449.      * Availability: Part of AmigaOS
  450.        
  451.     Infovox Product Range
  452.      * Description: Multilingual Text-to-speech systems, languages
  453.        available: American English, British English, German, French,
  454.        Spanish, Italian, Swedish, Norwegian, Icelandic, Danish and
  455.        Finnish.
  456.        
  457.      * Product name: INFOVOX 500, PC BOARD
  458.           + Product description: Half length expansion board for IBM PC,
  459.             XT, AT, PS/2 model 30 or compatible personal computers. The
  460.             board can also be connected via the serial port. Language and
  461.             control program for downloading into RAM or mounted on
  462.             EPROMs.
  463.           + Platform: for IBM PC, XT, AT, PS/2 model 30 or compatible
  464.      * Product name: INFOVOX 600, OEM BOARD
  465.           + Product description: OEM board built with CMOS IC's. Language
  466.             and control program are stored in on-board fixed memory.
  467.           + Platform: any, Interface: 9-pole D-SUB (RS 232-C) 300-9600
  468.             Baud
  469.      * Product name: INFOVOX 700, DESKTOP UNIT
  470.           + Product description: Desktop unit with built in Infovox 600
  471.             to be connected to any computer or terminal via an RS 232-C
  472.             serial interface. Built in loudspeaker and rechargable
  473.             battery for 4 hours use, and control knobs for continuous
  474.             control of speech volume and speed.
  475.           + Platform: any
  476.      * Product name: INFOVOX 650, OEM BOARD
  477.           + Product description: OEM-board built with CMOS IC's. Language
  478.             and control program are stored in on-board memory.
  479.           + Platform:any, Interface: 9 pole D-SUB (RS 232-C) 300-9600
  480.             Baud
  481.      * Product name: INFOVOX 750, DESKTOP UNIT
  482.           + Product description: Desktop unit with built in Infovox 650
  483.             to be connected to any computer or terminal via an RS 232-C
  484.             serial interface. Built in loudspeaker and rechargable
  485.             battery for 5 hours use, and a control knob for continuous
  486.             control of speech volume.
  487.           + Platform: any
  488.      * Misc: Infovox multi-lingual Text-to-Speech Technologies can
  489.        interface with Apple's PlainTalk System. It enables Apple Third
  490.        party developers to write application software with synthetic
  491.        speech output using their usual Apple Plain Talk Text-to-Speech
  492.        interface. Software already written for the English speaking
  493.        market using Apple Plain Talk can be now distributed worldwide,
  494.        provided message strings are translated.
  495.      * Contact:
  496.     Telia Promotor Infovox AB
  497.     TTS Sales Division
  498.     P.O. Box 2069
  499.     S-171 02 Solna, Sweden
  500.     Ph: +46 8 764 35 00 Fax: +46 8 735 78 76
  501.     email: tts-sales@infovox.se
  502.     
  503.     SIMTEL-20
  504.      * The following is a list of speech related software available from
  505.        SIMTEL-20 and its mirror sites for PCs.
  506.      * The SIMTEL internet address is WSMR-SIMTEL20.Army.Mil
  507.        [192.88.110.20] Try looking at your nearest archive site first.
  508. Directory PD1: MSDOS.VOICE
  509.  Filename   Type Length   Date   Description
  510.  ==============================================
  511.  AUTOTALK.ARC  B   23618  881216  Digitized speech for the PC
  512.  CVOICE.ARC    B   21335  891113  Tells time via voice response on PC
  513.  HEARTYPE.ARC  B   10112  880422  Hear what you are typing, crude voice synth.
  514.  HELPME2.ARC   B    8031  871130  Voice cries out 'Help Me!' from PC speaker
  515.  SAY.ARC       B   20224  860330  Computer Speech - using phonemes
  516.  SPEECH98.ZIP  B   41003  910628  Build speech (voice) on PC using 98 phonemes
  517.  TALK.ARC      B    8576  861109  BASIC program to demo talking on a PC speaker
  518.  TRAN.ARC      B   39766  890715  Repeats typed text in digital voice
  519.  VDIGIT.ZIP    B  196284  901223  Toolkit: Add digitized voice to your programs
  520.  VGREET.ARC    B   45281  900117  Voice says good morning/afternoon/evening
  521.  
  522.      _________________________________________________________________
  523.  
  524.  
  525. ===========================================================================
  526.  
  527.    
  528. FAQ SECTION 6 - Speech Recognition
  529.  
  530.   Q6.1: WHAT IS SPEECH RECOGNITION?
  531.   
  532.    Automatic speech recognition is the process by which a computer maps
  533.    an acoustic speech signal to text.
  534.    
  535.    Automatic speech understanding is the process by which a computer maps
  536.    an acoustic speech signal to some form of abstract meaning of the
  537.    speech.
  538.      _________________________________________________________________
  539.    
  540.   Q6.2: HOW CAN I BUILD A VERY SIMPLE SPEECH RECOGNISER?
  541.   
  542.    Doug Danforth provides a detailed account in article 253 in the
  543.    comp.speech archives. A summary is provided below. It is also
  544.    available by anonymous ftp
  545.      *
  546.        ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/info/DIY_SpeechRecognit
  547.        ion
  548.        
  549.     QUICKY RECOGNIZER sketch:
  550.     
  551.     Here is a simple recognizer that should give you 85%+ recognition
  552.    accuracy. The accuracy is a function of the words you have in your
  553.    vocabulary. Long distinct words are easy. Short similar words are
  554.    hard. You can get 98+% on the digits with this recognizer.
  555.    
  556.    Overview:
  557.      * Find the begining and end of the utterance.
  558.      * Filter the raw signal into frequency bands.
  559.      * Cut the utterance into a fixed number of segments.
  560.      * Average data for each band in each segment.
  561.      * Store this pattern with its name.
  562.      * Collect training set of about 3 repetitions of each pattern
  563.        (word).
  564.      * Recognize unknown by comparing its pattern against all patterns in
  565.        the training set and returning the name of the pattern closest to
  566.        the unknown.
  567.        
  568.    Many variations upon the theme can be made to improve the performance.
  569.    Try different filtering of the raw signal and different processing
  570.    methods.
  571.    
  572.    Q6.7 contains information on public domain speech recognition
  573.    software: Lotec and Myers' Hidden Markov Model software.
  574.      _________________________________________________________________
  575.    
  576.   Q6.3: WHAT DOES SPEAKER DEPENDENT/ADAPTIVE/INDEPENDENT MEAN?
  577.   
  578.    A speaker dependent system is developed to operate for a single
  579.    speaker. These systems are usually easier to develop, cheaper to buy
  580.    and more accurate, but not as flexible as speaker adaptive or speaker
  581.    independent systems.
  582.    
  583.    A speaker independent system is developed to operate for any speaker
  584.    of a particular type (e.g. American English). These systems are the
  585.    most difficult to develop, most expensive and accuracy is lower than
  586.    speaker independent systems. However, they are more flexible.
  587.    
  588.    A speaker adaptive system is developed to adapt its operation to the
  589.    characteristics of new speakers. It's difficulty lies somewhere
  590.    between speaker independent and speaker dependent systems.
  591.      _________________________________________________________________
  592.    
  593.   Q6.4: WHAT DOES SMALL/MEDIUM/LARGE/VERY-LARGE VOCABULARY MEAN?
  594.   
  595.    The size of vocabulary of a speech recognition system affects the
  596.    complexity, processing requirements and the accuracy of the system.
  597.    Some applications only require a few words (e.g. numbers only), others
  598.    require very large dictionaries (e.g. dictation machines). There are
  599.    no established definitions, however, try
  600.      * small vocabulary - tens of words
  601.      * medium vocabulary - hundreds of words
  602.      * large vocabulary - thousands of words
  603.      * very-large vocabulary - tens of thousands of words.
  604.        
  605.      _________________________________________________________________
  606.    
  607.   Q6.5: WHAT DOES CONTINUOUS SPEECH OR ISOLATED-WORD MEAN?
  608.   
  609.    An isolated-word system operates on single words at a time - requiring
  610.    a pause between saying each word. This is the simplest form of
  611.    recognition to perform because the end points are easier to find and
  612.    the pronunciation of a word tends not affect others. Thus, because the
  613.    occurrences of words are more consistent they are easier to recognise.
  614.    
  615.    A continuous speech system operates on speech in which words are
  616.    connected together, i.e. not separated by pauses. Continuous speech is
  617.    more difficult to handle because of a variety of effects. First, it is
  618.    difficult to find the start and end points of words. Another problem
  619.    is "coarticulation". The production of each phoneme is affected by the
  620.    production of surrounding phonemes, and similarly the the start and
  621.    end of words are affected by the preceding and following words. The
  622.    recognition of continuous speech is also affected by the rate of
  623.    speech (fast speech tends to be harder).
  624.      _________________________________________________________________
  625.    
  626.   Q6.6: HOW IS SPEECH RECOGNITION PERFORMED?
  627.   
  628.    A wide variety of techniques are used to perform speech recognition.
  629.    There are many types of speech recognition. There are many levels of
  630.    speech recognition / analysis / understanding.
  631.    
  632.    Typically speech recognition starts with the digital sampling of
  633.    speech. The next stage is acoustic signal processing. Most techniques
  634.    include spectral analysis; e.g. LPC analysis, MFCC, cochlea modelling
  635.    and many, many more.
  636.    
  637.    The next stage is recognition of phonemes, groups of phonemes and
  638.    words. This stage can be achieved by many processes such as DTW
  639.    (Dynamic Time Warping), HMM (hidden Markov modelling), NNs (Neural
  640.    Networks), expert systems and combinations of techniques. HMM-based
  641.    systems are currently the most commonly used and most successful
  642.    approach.
  643.    
  644.    Most systems utilise some knowledge of the language to aid the
  645.    recognition process.
  646.    
  647.    Some systems try to "understand" speech. That is, they try to convert
  648.    the words into a representation of what the speaker intended to mean
  649.    or achieve by what they said.
  650.      _________________________________________________________________
  651.    
  652.   Q6.7: WHAT ARE SOME GOOD REFERENCES/BOOKS ON SPEECH RECOGNITION?
  653.   
  654.    Some reviews of speech recognition for personal computers:
  655.      * "Seybold Report on Desktop Publishing" published a nine-page,
  656.        head-to-head comparison of Dragon's DOS software with IBM's OS/2
  657.        software. March 7, 1994; Volume 8, Number 7; Pages 3-11;
  658.        ISSN:0889-9762; Seybold Publications, P.O. Box 644, Media, PA
  659.        19063 USA, phone (610) 565-2480.
  660.      * McGraw-Hill Inc.'s "BYTE, the Magazine of Technology Integration,"
  661.        published a two-page review of IBM's Personal Dictation System
  662.        software. May 1994; Volume ?, Number ?; Pages 145-146;
  663.        ISSN:0360-5280; Editorial, Executive, and Circulation address: One
  664.        Phoenix Mill Lane, Peterborough, NH 03458 USA, phone ?
  665.        
  666.    Some general introduction books on speech recognition technology:
  667.      * Fundamentals of Speech Recognition; Lawrence Rabiner & Biing-Hwang
  668.        Juang Englewood Cliffs NJ: PTR Prentice Hall (Signal Processing
  669.        Series), c1993 ISBN 0-13-015157-2
  670.      * Speech recognition by machine; W.A. Ainsworth London: Peregrinus
  671.        for the Institution of Electrical Engineers, c1988
  672.      * Speech synthesis and recognition; J.N. Holmes Wokingham: Van
  673.        Nostrand Reinhold, c1988
  674.      * Douglas O'Shaughnessy -- Speech Communication: Human and Machine
  675.        Addison Wesley series in Electrical Engineering: Digital Signal
  676.        Processing, 1987.
  677.      * Electronic speech recognition: techniques, technology and
  678.        applications edited by Geoff Bristow, London: Collins, 1986
  679.      * Readings in Speech Recognition; edited by Alex Waibel & Kai-Fu
  680.        Lee. San Mateo: Morgan Kaufmann, c1990
  681.        
  682.    More specific books/articles:
  683.      * Hidden Markov models for speech recognition; X.D. Huang, Y. Ariki,
  684.        M.A. Jack. Edinburgh: Edinburgh University Press, c1990
  685.      * Automatic speech recognition: the development of the SPHINX
  686.        system; by Kai-Fu Lee; Boston; London: Kluwer Academic, c1989
  687.      * Prosody and speech recognition; Alex Waibel (Pitman: London)
  688.        (Morgan Kaufmann: San Mateo, Calif) 1988
  689.      * S. E. Levinson, L. R. Rabiner and M. M. Sondhi, "An Introduction
  690.        to the Application of the Theory of Probabilistic Functions of a
  691.        Markov Process to Automatic Speech Recognition" in Bell Syst.
  692.        Tech. Jnl. v62(4), pp1035--1074, April 1983
  693.      * R. P. Lippmann, "Review of Neural Networks for Speech
  694.        Recognition", in Neural Computation, v1(1), pp 1-38, 1989.
  695.        
  696.      _________________________________________________________________
  697.    
  698.   Q6.8: WHAT SPEECH RECOGNITION PACKAGES ARE AVAILABLE?
  699.   
  700.    The following packages are presented in no particular order.
  701.    
  702.     HM2007 - Speech Recognition Chip
  703.      * Description: HM2007 is a 48-pin single chip CMOS voice
  704.        recognition LSI circuit with on-chip analog front end, voice
  705.        analysis, recognition process and system control functions. A 40
  706.        word isolated-word voice recognition system can be composed of an
  707.        external microphone, keyboard, SRAM and a few other components.
  708.        When combined with a microprocessor, an intelligent recognition
  709.        system can be built. A demo board for this chip is being
  710.        distributed by The Summa Group.
  711.      * Cost: Approx US$30 for the HM2007 and US$100 for the demo board.
  712.      * Contact: 
  713.     The Summa Group Limited
  714.     One California Street, Suite #1940,
  715.     San Francisco, CA 94111
  716.     Ph: (415) 288-0390
  717.     
  718.     Voice Blaster Ver. 4.0
  719.      * Platform: IBM AT or higher, DOS or Wndows 3.1
  720.      * Description: Uses a Sound Blaster or compatible board. Contains
  721.        a microphone headset and a connector for LPT1:. A printer can
  722.        still be used on LPT1:. Will recognize 1024 words that are trained
  723.        by the operator. Each word activates a macro that can enter an
  724.        ascii word on the screen or into a word processor or invoke a
  725.        batch file. An optional footswitch may be installed. Software to
  726.        run under DOS or Windows 3.1 is included.
  727.      * Cost: Around $150 Canadian.
  728.      * Contact: 
  729.     COVOX Inc.
  730.     675 Conger Street
  731.     Eugene, Oregon, 97402, USA
  732.     Ph: (503) 342-1271 Fax: (503) 342-1283
  733.     BBS: (503) 342-4135
  734.     
  735.     Votan
  736.      * Platform: MS-DOS, SCO UNIX
  737.      * Description: Isolated word and continuous speech modes, speaker
  738.        dependant and (limited) speaker independent. Vocab size is 255
  739.        words or up to a fixed memory limit - but it is possible to
  740.        dynamically load different words for effectively unlimited number
  741.        of words.
  742.      * Rough Cost: Approx US $1,000-$1,500
  743.      * Requirements: Cost includes one Votan Voice Recognition ISA-bus
  744.        board for 386/486-based machines. A software development system is
  745.        also available for DOS and Unix.
  746.      * Misc: Up to 8 Votan boards may co-exist for 8 simultaneous voice
  747.        users. A telephone interface is also available. There is also a
  748.        4GL and a software development system. Apparently there is more
  749.        than one version - more info required.
  750.      * Contact: 800-877-4756, 510-426-5600
  751.        
  752.     Entropic's HTK (HMM Toolkit)
  753.      * Platform: Range of Unix platforms.
  754.      * Description: HTK is a software toolkit for building continuous
  755.        density HMM based speech recognisers. It consists of a number of
  756.        library modules and a number of tools. Functions include speech
  757.        analysis, training tools, recognition tools, results analysis, and
  758.        an interactive tool for speech labelling. Many standard forms of
  759.        continuous density HMM are possible. Can perform isolated word or
  760.        connected word speech recognition. It van model whole words, sub-
  761.        word units. Can perform speaker verification and other pattern
  762.        recognition work using HMMs. HTK is now integerated with the
  763.        ESPS/Waves speech research environment which is described in
  764.        Section 1.8.
  765.      * Misc: The availability of HTK changed in early 1993 when
  766.        Entropic obtained exclusive marketing rights to HTK from the
  767.        developers at Cambridge.
  768.      * Cost: On request.
  769.      * Contact: 
  770.     Entropic Research Laboratory,
  771.     600 Pennsylvania Ave, S.E. Suite 202,
  772.     Washington, D.C. 20003, USA
  773.     Phone: (202) 547-1420.
  774.     email - info@wrl.epi.com
  775.     
  776.     DragonDictate version 3.0
  777.      * Platform: PC
  778.      * Description: Speaker-adaptive recognition system for discrete
  779.        speech. Provides 110,000 word dictionary and also allows user to
  780.        add words. Active vocabulary of 5,000, 30,000, or 60,000 words.
  781.        Allows dictation into almost all DOS applications (word
  782.        processors, spreadsheets, etc.) and hands-free operation of the
  783.        PC.
  784.      * Cost:Prices including audio board and high-quality headset
  785.        microphone:
  786.           + US$695 (5,000 word Starter Edition)
  787.           + US$995 (30,000 word Classic Edition)
  788.           + US$1,995 (60,000 word Power Edition)
  789.      * Requirements: Minimum of 33 Mhz 486 with 8-16M memory and at
  790.        least 29M disk space (depending on product), one 8-bit slot, DOS
  791.        5.0 and up (also runs in a DOS box under Windows or OS/2).
  792.      * Contact: 
  793.     Dragon Systems, Inc.
  794.     90 Bridge Street,
  795.     Newton MA 02158, USA
  796.     Tel: 1-617-965-5200, Fax: 1-617-527-0372
  797.     
  798.     DragonDictate for Windows
  799.      * Platform: PC
  800.      * Description: Speech-to-text dictation system. Discrete speech;
  801.        speaker- adaptive. Also provides command/control and mouse
  802.        movement for hands-free operation of Windows. Comes with a 120,000
  803.        word pronunciation dictionary; users can also add their own words
  804.        or phrases. Dictate directly into any application.
  805.      * Rough Cost:Prices including software, documentation and
  806.        microphone:
  807.           + DragonDictate Starter Edition (5,000 words active) -- $395
  808.           + DragonDictate Classic Edition (30,000 words active) -- $695
  809.           + DragonDictate Power Edition (60,000 words active) -- $1,695
  810.      * Requirements: 486/33, 7-10 MB dedicated RAM (depending on
  811.        edition), Windows 3.1 or later. Supported sound boards: Media
  812.        Vision Pro Audio Studio 16, Creative Labs Sound Blaster 16,
  813.        Microsoft Windows Sound System, IBM Audio Capture/Playback
  814.        Adapter.
  815.      * Contact:
  816.     Dragon Systems, Inc.
  817.     320 Nevada Street
  818.     Newton, MA 02160, USA
  819.     Phone: (617)965-5200 Fax: (617)527-0372
  820.     
  821.     DragonVoiceTools
  822.      * Platform: PC
  823.      * Description: Programmer's toolkit for developing speech-aware
  824.        DOS or Windows applications. Recognizes continuously spoken digits
  825.        and discretely spoken words or phrases. Up to 1,000 words can be
  826.        active at one time. Use words from 110,000 word dictionary
  827.        (included) and/or develop your own word models.
  828.      * Cost: 
  829.           + US$1,995 (developer's kit)
  830.           + US$595 (end-user system)
  831.      * Requirements: Minimum of 20 Mhz 386 (larger vocabulary requires
  832.        faster processor) with at least 5M memory and at least 19M disk
  833.        space (depending on vocabulary size), DOS 5.0 and up, Windows 3.1
  834.        and up, Borland C or C++ or Microsoft C or C++. Also requires IBM
  835.        M-ACPA card available from IBM or Dragon Systems ($325).
  836.      * Contact: 
  837.     Dragon Systems, Inc.
  838.     90 Bridge Street, Newton MA 02158, USA
  839.     Tel: 1-617-965-5200, Fax: 1-617-527-0372
  840.     
  841.     IBM Personal Dictation System
  842.     
  843.     OR: Osborne Personal Dictation System (in Australia)
  844.      * Platform: Intel I486 & IBM OS/2
  845.      * Description: Independent Speaker, discrete speech dictation with
  846.        navigation. Navigation does not require setup, most applications
  847.        are automatically speech enabled by dynamic control analysis.
  848.        Dictation averages 70WPM with 95% accuracy and uses statistical
  849.        trigram modelling. The base system is 22K words, other
  850.        vocabularies available for specific industries.
  851.      * Requirements: 486SX or above, 16MB Ram, 30MB File space,
  852.        Dictation Adapter
  853.      * Cost: Software $495 (includes mic) / Hardware $495
  854.      * Misc: Based on IBM Tangora Technology
  855.      * Availability: US English. Other languages (UK, FR, GR, IT, and
  856.        ES) available 3Q94.
  857.      * Contact: US Contact 1-800-TALK-2-ME or 1-914-766-9252.
  858.        
  859.     VoiceServer for Windows
  860.      * Platform: PC
  861.      * Description: Speaker dependent, each with an independent
  862.        directory. Isolated word. Upto 1000 words/user, 300 words/window.
  863.        1 word occupies 2Kb on hard disk. Can be used to control Windows
  864.        applications by issuing voice commands instead of menu selection.
  865.      * Rough Cost: 292 Pounds(UK)
  866.      * Requirements: None
  867.      * Misc: Price includes a half-sized AT voice card (including a
  868.        DSP), software, documentation & a microphone (attachable to
  869.        keyboard or speaker). A light-weight high-spec headset is an
  870.        optional extra.
  871.      * Contact: 
  872.     Mark Redwood
  873.     Applied Voice Technologies
  874.     26 Danbury Street, Islington,
  875.     London, UK, N1 8JU
  876.     Ph: + 44 71 454 1224 : Fax: + 44 71 454 1225
  877.     
  878.     IN3 Voice Command for Windows
  879.      * Platform: PC with Windows 3.1
  880.      * Description: IN3 is now available for MS-Windows. Users can call
  881.        applications to the foreground with voice commands. Once the
  882.        application is called, the user may enter commands and data with
  883.        voice commands. Voice macros can reduce the strain of repetitive
  884.        stress injuries (RSI) such as Carpel Tunnel Syndrome (CTS) by
  885.        replacing heavy repetitive keyboard hammering with simple voice
  886.        operations. Voice macros take complex operations and reduce them
  887.        to simple verbal commands. Voice input can provide new facilities
  888.        for tasks which could not easily have been otherwise performed
  889.        without the multiple axis of input. IN3 is hardware-independent,
  890.        users with any Windows-compatible audio add speech recognition to
  891.        the desktop. IN3 works with either 8 bit or 16 bit Windows audio
  892.        boards. IN3 is based on continuous word-spotting technology. A
  893.        developer API is also available for creating voice-enabled
  894.        applications.
  895.      * Price: $179 U.S.
  896.      * Requirements: PC with 80386 processor or better, Microsoft
  897.        Windows 3.1, and Windows compatible audio system with microphone.
  898.      * Misc: Fully functional demos are available on Compuserve in
  899.        various Multimedia and CAD forums. Demos are also available from
  900.        "America on Line", the comp.binaries.ms-windows archive sites, and
  901.        various BBS systems. It is also available by anonymous ftp
  902.           +
  903.             ftp://ftp.wustl.edu/usenet/comp.binaries.ms-windows/v3/in3demo
  904.             .zip
  905.           + ftp://ftp.uwasa.fi/mirror/ultrasound/demo/in3demo.zip
  906.    An equivilant Sun product is described below.
  907.      * Contact: 
  908.     Brantley Kelly
  909.     Email: cbk@gacc.atl.ga.us CIS: 75120,431
  910.     FAX: 1-404-925-7924 Phone: 1-404-925-7950
  911.     Command Corp. Inc, 3675 Crestwood Parkway, Duluth GA 30136, USA
  912.     
  913.     IN3 Voice Command
  914.      * Platform: Sun SPARCstation
  915.      * Description: IN3 provides a secure, robust, word spotting,
  916.        continuous speech recognition facility for the Sun OS or Solaris
  917.        operating systems. The recognition system is a secure operating
  918.        system facility capable of working with various interfaces,
  919.        microphones, and devices. The operating system interface works
  920.        with native UNIX outside of X Windows as well as provides enhanced
  921.        X Windows facilities including named window support. The user
  922.        interface provides a means to quickly create commands on the fly
  923.        for replacing long strings and complex operations with voice
  924.        macros. [Voice macros can reduce the strain of repetitive stress
  925.        injuries (RSI) such as Carpel Tunnel Syndrome (CTS) by replacing
  926.        heavy repetitive keyboard hammering with simple voice operations.
  927.        ] The IN3 user interface works with generic X servers and window
  928.        managers. A developer API is also available for creating voice-
  929.        enabled applications, interfacing with other audio sources, and
  930.        providing extensive application control over the recognition
  931.        facility.
  932.      * Availability: SunSite archive at SunSITE.unc.edu as well as on
  933.        Catalyst CDware as both a runable demo and unlockable software.
  934.      * Hardware Required: Sun SPARCstation with audio input. Noise
  935.        canceling microphone recommended but not required.
  936.      * Software Required:
  937.           + Sun OS 4.1.2 with OpenWindows 3.0
  938.           + or, Sun OS 4.1.3
  939.           + or, Solaris 2.1 or Solaris 2.2
  940.      * Misc: An equivilant MS-Windows product is described above.
  941.      * Price: $495 U.S.
  942.      * Contact: 
  943.     Brantley Kelly
  944.     Email: cbk@gacc.atl.ga.us CIS: 75120,431
  945.     FAX: 1-404-925-7924 Phone: 1-404-813-8030
  946.     Command Corp. Inc, 3675 Crestwood Parkway, Duluth GA 30136, USA
  947.     
  948.     Phonetic Engine 400 (PE400) - Speech Systems, Inc.
  949.      * Platform: PC
  950.      * Description: Speaker independent, large vocabulary, continuous
  951.        speech recognition for MS Windows or DOS.
  952.      * Rough Cost: $1195 US dollars. Includes board, microphone,
  953.        developer kit, documentation, 2 days of technical training and 90
  954.        days of technical support.
  955.      * Requirements: IBM AT class machine or better plus 5M disk space.
  956.        Most processing is performed on-board (4M standard or 16M
  957.        upgrade).
  958.      * Misc: Requires developer to provide a context-free grammar.
  959.        Vocabulary size unknown (quotes from 500 - 2000 words per
  960.        grammar), but dynamic grammar switching capabilities may increase
  961.        the effective vocabulary size. Development system includes
  962.        lower-level C,C++ library (VoiceLib), higher-level DLL (SPOT)
  963.        callable from many languages, SPOT/VBX, a custom control for
  964.        Visual Basic and Visual C++.
  965.      * Contact: 
  966.     Speech Systems, Inc.
  967.     2945 Center Green Court South
  968.     Boulder, CO 80301-2275, USA
  969.     Tel: 303.938.1110 Fax: 303.938.1874
  970.     
  971.     SayIt
  972.      * Platform: Sun SPARCstation
  973.      * Description: Voice recognition and macro building package for
  974.        Suns in the Openwindows 3.0 environment. Speaker dependent
  975.        discrete speech recognition. Vocabularies can be associated to
  976.        applications and the active vocabulary follows the application
  977.        that has input focus. Macros can include mouse commands,
  978.        keystrokes, Unix commands, sound, Openwindow actions and more. An
  979.        evaluation copy is available by email.
  980.      * Hardware: Microphone required (SunMicrophone is fine).
  981.      * Cost: $US295
  982.      * Contact: 
  983.     Phone: 1-800-245-UNIX or 1-415-572-0200
  984.     Fax: 1-415-572-1300
  985.     Email: info@qualix.com
  986.     
  987.     Kurzweil Voice for Windows
  988.      * Platform: MS Windows 3.1
  989.      * Description: Kurzweil Voice for Windows is a dictation product
  990.        enabling the user to create text and enter data by speaking to
  991.        Windows-based applications. System is adaptive but requires no
  992.        initial training. Users can choose either 30,000 or 60,000 word
  993.        active vocabulary. Application command translation templates for
  994.        popular Windows application such as WordPerfect, 1-2-3, Organizer,
  995.        Word.
  996.      * Cost: US $995
  997.      * Hardware: 486DX/33 or higher, 8 or 16 MB dedicated memory
  998.        (depends on vocabulary, 30 MBs dedicated disk space, VGA or
  999.        higher, Kurzweil-supplied microphone and DSP board.
  1000.      * Contact:
  1001.     Phone: 1-800-380-1234
  1002.     Email: info@kurz-ai.com
  1003.     
  1004.     D6006 Voice Control Processor
  1005.      * Platform: ?
  1006.      * Description: ?
  1007.      * Contact: 
  1008.     DSP Telecommunications Inc.
  1009.     2855 Kifer Road, Suite 202, Santa Clara CA 95051, USA
  1010.     Tel:(408)986-4310
  1011.     Fax:(408)986-4324
  1012.     
  1013.     Speech Commander - Listen for Windows
  1014.      * Platform: ?
  1015.      * Description: ?
  1016.      * Contact: 
  1017.     Verbex Voice Systems
  1018.     1090 King Georges Post Rd., Bldg 107,
  1019.     Edison NJ 08837, USA
  1020.     Tel:(908)225-5225
  1021.     Fax:(908)225-7764
  1022.     
  1023.     Voice-Trek 2.0
  1024.      * Platform: ?
  1025.      * Description: ?
  1026.      * Contact: 
  1027.     Tardis Technology Inc., Voice Recognition Div.
  1028.     10321 Los Alamitos Blvd., Los Alamitos CA 90720
  1029.     Tel:(310)799-3355 Fax:(310)799-3360
  1030.     
  1031.     Visus SpeechKit
  1032.      * Platform: NeXT
  1033.      * Description: SpeechKit is based on SPHINX, a
  1034.        speaker-independent, 1000 word or so, continuous speech
  1035.        recognition system which allows you to incorporate speech
  1036.        recognition into your applications. You can design your vocabulary
  1037.        and grammars.
  1038.      * Contact: Visus - no address or phone provided. A possible
  1039.        contact is Robert Brennan at Carnegie Mellon University. email:
  1040.        Robert_Brennan@cmu.edu
  1041.        
  1042.     recnet
  1043.      * Platform: UNIX
  1044.      * Description: Speech recognition for the speaker independent
  1045.        TIMIT and Resource Management tasks. It uses recurrent networks to
  1046.        estimate phone probabilities and Markov models to find the most
  1047.        probable sequence of phones or words. The system is a snapshot of
  1048.        evolving research code. There is no documentation other than
  1049.        published research papers. The components are:
  1050.           + A preprocessor which implements many standard and many non-
  1051.             standard front end processing techniques.
  1052.           + A recurrent net recogniser and parameter files
  1053.           + Two Markov model based recognisers, one for phone recognition
  1054.             and one for word recognition
  1055.           + A dynamic programming scoring package The complete system
  1056.             performs competatively.
  1057.      * Cost: Free
  1058.      * Requirements: TIMIT and Resource Management databases
  1059.      * Contact: Tony Robinson: ajr@eng.cam.ac.uk
  1060.      * Availability: by anonymous ftp
  1061.           +
  1062.             ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/misc/recnet-1.3.ta
  1063.             r.Z
  1064.             
  1065.     Lotec Speech Recognition Package
  1066.      * Platform: Sun
  1067.      * Description: Public domain speech recognition software. Operates
  1068.        from input in Sun audio format (.au files) and outputs word
  1069.        hypotheses and time labelling data. The software includes programs
  1070.        to collect speech samples, a labeller, a "featurizer" which
  1071.        parameterises speech files, a word spotter and the recogniser. The
  1072.        software can perform real time recognition on a Sparc 10 for small
  1073.        vocabularies.
  1074.      * Requirements: Sun SPARC audio input and a "decent" microphone
  1075.        Sun multimedia demo software (in /usr/demo/SOUND) and X.
  1076.      * Availability: By anonymous ftp
  1077.           + ftp://ftp.sanpo.t.u-tokyo.ac.jp/pub/nigel/lotec/lotec.tar.Z
  1078.      * Contact: Nigel Ward: nigel@sanpo.t.u-tokyo.ac.jp
  1079.        
  1080.     Myers' Hidden Markov Model software
  1081.      * Description: Hidden Markov model software for automatic speech
  1082.        recognition. C++ code that implements a basic left-right hidden
  1083.        Markov model and corresponding Baum-Welch (ML) training algorithm.
  1084.        It is meant as an example of the HMM algorithms described by
  1085.        L.Rabiner and others. The code was built in order to learn how HMM
  1086.        systems work and we are now offering it to the net so that others
  1087.        can learn how to use HMMs for speech recognition. Keep in mind
  1088.        that ease of understanding was pit primary concern, not
  1089.        efficiency. The code can be used to build an experimental speech
  1090.        recognition systems using "train_hmm" and "test_hmm", and can be
  1091.        used in conjunction with written tutorials on HMMs to understand
  1092.        how they work.
  1093.      * Availability: By anonymous ftp from the comp.speech archive
  1094.        site. There are three files in the directory
  1095.           + ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/sources
  1096.    The files are
  1097.           + hmm.README
  1098.           + hmm-1.0.tar.Z
  1099.           + OR, hmm-1.0.tar.gz
  1100.    (Note: hmm-1.0.tar.Z and hmm-1.0.tar.gz compressed and GNU compressed
  1101.        versions of the same files)
  1102.      * Contact: Richard Myers: email rmyers@ics.uci.edu
  1103.        
  1104.     Voice Command Line Interface
  1105.      * Platform: Amiga
  1106.      * Description: VCLI will execute CLI commands, ARexx commands, or
  1107.        ARexx scripts by voice command through your audio digitizer. VCLI
  1108.        allows you to launch multiple applications or control any program
  1109.        with an ARexx capability entirely by spoken voice command. VCLI is
  1110.        fully multitasking and will run in the background, continuously
  1111.        listening for your voice commands even while other programs are
  1112.        running. Documentation is provided in AmigaGuide format. VCLI 6.0
  1113.        runs under either Amiga DOS 2.0 or 3.0.
  1114.      * Cost: Free?
  1115.      * Requirements: Supports the DSS8, PerfectSound 3, Sound Master,
  1116.        Sound Magic, and Generic audio digitizers.
  1117.      * Availability: by ftp from wuarchive.wustl.edu in the file
  1118.        systems/amiga/incoming/audio/VCLI60.lha and from
  1119.        amiga.physik.unizh.ch as the file pub/aminet/util/misc/VCLI60.lha
  1120.      * Contact: Author's email is RHorne@cup.portal.com
  1121.        
  1122.     DATAVOX - French
  1123.      * Platform: PC
  1124.      * Description: Continuous speech - speaker independent or
  1125.        dependent.
  1126.      * Rough Cost: ?
  1127.      * Requirements: 2 PC format boards (RdF1000 and TdS 96/25) and an
  1128.        A/D - D/A module (ASA116)
  1129.      * Misc: Application software may dialog with DATAVOX through 2
  1130.        types of interfaces :
  1131.           + Keyboard overlay: The application software may be used with
  1132.             any PC compatible package. No specific adaptation is
  1133.             necessary, you only need to define your configuration with
  1134.             the application software.
  1135.           + C library: Allows a user-written program to drive the
  1136.             recognition system.
  1137.    DATAVOX is based on the AMADEUS speech recognition software developed
  1138.        at LIMSI. It provides
  1139.           + Continuous speech recognition with 500 words speaker
  1140.             dependent, 50 words speaker independent (custom-made
  1141.             vocabulary).
  1142.           + Grammar of the application language (syntax acquisition,
  1143.             verification and simplification software).
  1144.           + Large vocabulary : DATAVOX can recognize vocabularies of
  1145.             several thousand words as long as there are no more than 500
  1146.             words in the active vocabulary at any given node. It takes
  1147.             less than 1 second to change syntax and vocabulary.
  1148.           + Training controlled by the system (use of co-articulation
  1149.             models).
  1150.           + Response time less than 500 ms for any phrase length.
  1151.           + Synthetis (ADPCM) can be heard simultaneously while
  1152.             recognition is being carried out.
  1153.      * Contact:
  1154.     VECSYS
  1155.     Le Chene rond, 91570 Bievres, France
  1156.     Fax: 33 1 69 41 24 30
  1157.     Voice: 33 1 69 41 15 04
  1158.     
  1159.     PowerSecretary
  1160.      * Platform: Centris 650, 660AV. Quadra 650, 660AV, 700,800, 840AV,
  1161.        900, 950.
  1162.      * Description: Speaker dependent/adaptive system requiring words
  1163.        to be separated by short pauses.
  1164.      * Vocabulary: 30,000 at any one time, automatically selected from
  1165.        120,000-word dictionary.
  1166.      * Cost: US$2,495; non-AV machines need an audio board will cost
  1167.        about US$300.
  1168.      * Requirements: Minimum of 16M of ram and System 7.0.
  1169.      * Contact:
  1170.     Articulate Systems
  1171.     600 W. Cummings Park, Suite 4500
  1172.     Woburn, MA 01801
  1173.     Ph: (617) 935-5656 Fax: (617) 935-0490.
  1174.     
  1175.     ICSS system from IBM
  1176.      * Description: A large vocabulary, speaker independent, continuous
  1177.        speech system which runs under Windows, OS/2, and AIX.
  1178.      * Requirements: Soundboard (e.g. Soundblaster)
  1179.      * Price: ?
  1180.      * Contact: ?
  1181.        
  1182.     Creative VoiceAssist
  1183.      * Platform: PC (?)
  1184.      * Price: $US99.95
  1185.      * Contact:
  1186.     Creative Labs
  1187.     Ph: 1-800-998-5227
  1188.     
  1189.      _________________________________________________________________
  1190.  
  1191.  
  1192.  
  1193.  
  1194. Andrew Hunt
  1195.   ---
  1196. Speech Technology Research Group        Ph:  61-2-351 4509
  1197. Dept. of Electrical Engineering            Fax: 61-2-351 3847
  1198. University of Sydney, NSW, 2006, Australia    email: andrewh@speech.su.oz.au
  1199.  
  1200.