home *** CD-ROM | disk | FTP | other *** search
/ ftp.pasteur.org/FAQ/ / ftp-pasteur-org-FAQ.zip / FAQ / comp-speech-faq / part3 < prev   
Internet Message Format  |  1998-07-13  |  205KB

  1. Path: senator-bedfellow.mit.edu!faqserv
  2. From: andrew.hunt@east.sun.com (Andrew Hunt)
  3. Newsgroups: comp.speech,comp.answers,news.answers
  4. Subject: comp.speech Frequently Asked Questions - part 3/3
  5. Supersedes: <comp-speech-faq/part3_897652698@rtfm.mit.edu>
  6. Followup-To: comp.speech
  7. Date: 12 Jul 1998 12:00:30 GMT
  8. Organization: Speech Applications Group, Sun Microsystems Laboratories
  9. Lines: 4577
  10. Approved: news-answers-request@MIT.Edu
  11. Expires: 23 Aug 1998 12:00:04 GMT
  12. Message-ID: <comp-speech-faq/part3_900244804@rtfm.mit.edu>
  13. References: <comp-speech-faq/part1_900244804@rtfm.mit.edu>
  14. Reply-To: andrew.hunt@east.sun.com (Andrew Hunt)
  15. NNTP-Posting-Host: penguin-lust.mit.edu
  16. Summary: Information on Speech Technology
  17. X-Last-Updated: 1998/07/08
  18. Originator: faqserv@penguin-lust.MIT.EDU
  19. Xref: senator-bedfellow.mit.edu comp.speech:18457 comp.answers:32123 news.answers:134644
  20.  
  21. Archive-name: comp-speech-faq/part3
  22. Last-modified: 1998/07/06
  23. URL: http://www.speech.su.oz.au/comp.speech/
  24.  
  25.                    COMP.SPEECH FAQ POSTING - PART 3/3
  26.  
  27.  
  28. [Note: this document has been automatically extracted from a WWW site:
  29.         http://www.speech.su.oz.au/comp.speech/
  30. This may introduce some formatting errors.]
  31.  
  32.  
  33.                               Speech Synthesis
  34.  
  35.                          comp.speech FAQ Section 5
  36.  
  37.           * SpeechLinks: Speech Synthesis
  38.           * Q5.1: What is speech synthesis?
  39.           * Q5.2: How can speech synthesis be performed?
  40.           * Q5.3: References/Books on Synthesis
  41.           * Q5.4: Speech Synthesis on the WWW
  42.           * Q5.5: Speech Synthesis Software/Hardware
  43.  
  44.  
  45. ___________________________________________________________________________
  46.  
  47.                         Q5.1: What is speech synthesis?
  48.  
  49.    Speech synthesis programs convert written input to spoken output by
  50.    automatically generating synthetic speech. Speech synthesis is often
  51.    referred to a "Text-to-Speech" conversion (TTS).
  52.  
  53.  
  54. ___________________________________________________________________________
  55.  
  56.                        Q5.2: Performing speech synthesis
  57.  
  58.    There are several algorithms. The choice depends on the task they're
  59.    used for. The easiest way is to just record the voice of a person
  60.    speaking the desired phrases. This is useful if only a restricted
  61.    volume of phrases and sentences is used, e.g. messages in a train
  62.    station, or schedule information via phone. The quality depends on the
  63.    way recording is done.
  64.  
  65.    More sophisticated but worse in quality are algorithms which split the
  66.    speech into smaller pieces. The smaller those units are, the less are
  67.    they in number, but the quality also decreases. An often used unit is
  68.    the phoneme, the smallest linguistic unit. Depending on the language
  69.    used there are about 35-50 phonemes in western European languages,
  70.    i.e. there are 35-50 single recordings. The problem is combining them
  71.    as fluent speech requires fluent transitions between the elements. The
  72.    intellegibility is therefore lower, but the memory required is small.
  73.  
  74.    A solution to this dilemma is using diphones. Instead of splitting at
  75.    the transitions, the cut is done at the center of the phonemes,
  76.    leaving the transitions themselves intact. This gives about 400
  77.    elements (20*20) and the quality increases.
  78.  
  79.    The longer the units become, the more elements are there, but the
  80.    quality increases along with the memory required. Other units which
  81.    are widely used are half-syllables, syllables, words, or combinations
  82.    of them, e.g. word stems and inflectional endings.
  83.  
  84.    The Museum of Speech Analysis and Synthesis has pictures of artificial
  85.    speech systems going back over 150 years: worth a visit. (
  86.    http://mambo.ucsc.edu/psl/smus/smus.html)
  87.  
  88.  
  89. ___________________________________________________________________________
  90.  
  91.                       Q5.3: References/Books on Synthesis
  92.  
  93.   Books and Papers
  94.  
  95.      * Thierry Dutoit, An Introduction to Text-to-Speech Synthesis,
  96.        Kluwer Academic Publishers (Dordrecht), 1997, ISBN 0-7923-4498-7,
  97.        312 pages. Volume 3 in the series on Text, Speech and Language
  98.        Technology.
  99.      * Douglas O'Shaughnessy, Speech Communication: Human and Machine
  100.        Addison Wesley series in Electrical Engineering: Digital Signal
  101.        Processing, 1987.
  102.      * T.V. Raman, Auditory User Interfaces --Toward The Speaking
  103.        Computer Kluwer Academic Publishers, Boston, ISBN 0-7923-9984-6,
  104.        August 1997, 168 pp.
  105.      * D. H. Klatt, "Review of Text-To-Speech Conversion for English",
  106.        Jnl. of the Acoustic Society of America (JASA), Vol 82, pp
  107.        737-793.
  108.      * "Talking Machines, Theories, Models and Designs" Eds, G. Bailly &
  109.        C. Benoit (Elsevier: North Holland)
  110.      * I. H. Witten. Principles of Computer Speech, London: Academic
  111.        Press, Inc., 1982.
  112.      * W.B. Kleijn and K.K. Paliwal (Eds.), Speech Coding and Synthesis,
  113.        Elsevier, Amsterdam, 1995.
  114.        Contents, preface etc on the WWW:
  115.        http://www.elsevier.nl/section/engtech/scs/menu.htm
  116.      * John Allen, Sharon Hunnicut and Dennis H. Klatt, "From Text to
  117.        Speech: The MITalk System", Cambridge University Press, 1987.
  118.      * J.P.H. van Santen, R. W. Sproat, J. P. Olive, and J. Hirschberg,
  119.        "Progress in Speech Synthesis", Springer, 1996.
  120.  
  121.   On the WWW
  122.  
  123.      * Survey of the State of the Art in Human Language Technology
  124.        Report edited by Ronald A. Cole et. al. with a section on
  125.        Text-to-Speech Technologies.
  126.        http://www.cse.ogi.edu/CSLU/HLTsurvey/ch5node1.html
  127.  
  128.   Bibliographies and Reference Lists
  129.  
  130.      * WWW searchable online-bibiliography for Phonetics and Speech
  131.        Technology with more than 8000 entries. Provided by Institut fur
  132.        Phonetik at Johann Wolfgang Goethe-Universitat Frankfurt.
  133.        http://www.uni-frankfurt.de/~ifb/bib_engl.html
  134.      * Computational Speech Processing: Speech Analysis, Recognition,
  135.        Understanding, Compression, Transmission, Coding, Synthesis ; Text
  136.        to Speech Systems, Speech to Tactile Displays, Speaker
  137.        Identification, Prosody Processing : BIBLIOGRAPHY, by Conrad F.
  138.        Sabourin, 1994, 2 volumes, 1187p, ISBN 2-921173-21-2, INFOLINGUA
  139.        inc., P.O. Box 187 Snowdon, Montreal, H3X 3T4, Canada.
  140.        See also: http://gomer.mlink.net/infolingua.html
  141.  
  142.  
  143. ___________________________________________________________________________
  144.  
  145.                    Q5.4: Speech Synthesis on the WWW
  146.  
  147.    Most of the following are links to WWW pages with demonstrations of
  148.    speech synthesis. Plenty more links are included in the detailed list
  149.    of speech synthesis software/hardware in Q5.5.
  150.  
  151.    Speech Synthesis "Museum"
  152.           URL: http://www.cs.bham.ac.uk/~jpi/synth/museum.html
  153.           Maintained by Jon Iles (j.p.iles@cs.bham.ac.uk) at the
  154.           University of Birmingham.
  155.           Information and speech samples for
  156.  
  157.           + YorkTalk
  158.           + Loughborough Sound Images
  159.           + University of Birmingham - FDFS
  160.           + Eurovocs
  161.           + DECtalk
  162.           + AT&T Bell Labs Synthesiser
  163.           + S.W.A.Ll.C. - Welsh Synthesis from CSTR
  164.           + All-Prosodic Speech Synthesis - IPOX
  165.           + Orator from Bellcore
  166.  
  167.    The Festival Speech Synthesis System
  168.           http://www.cstr.ed.ac.uk/projects/festival.html
  169.           Pre-synthesized examples in English, Welsh and Spanish, and
  170.           online demo of English.
  171.  
  172.    Pavarobotti
  173.           http://www.shc.uiowa.edu/fun/pavarobotti/pavarobotti.html
  174.           WWW demo of the Pavarobotti synthesis technology developed at
  175.           the National Center for Voice and Speech
  176.           (http://www.shc.uiowa.edu/ncvs_home.html).
  177.  
  178.    Say...
  179.           http://wwwtios.cs.utwente.nl/say
  180.           WWW demo of the rsynth speech synthesis software. The WWW
  181.           capability was implemented by Axel Belinfante.
  182.  
  183.    Musee sonore de la synthese de la Parole en francais
  184.           http://www.icp.grenet.fr/exemples_synthese/ex.html
  185.           Speech synthesis examples from a series of French language
  186.           speech synthesisers plus links to other speech synthesis demo
  187.           pages.
  188.  
  189.           + ICP-Grenoble
  190.           + CNET-Lannion (with TD-PSOLA)
  191.           + KTH-Stockholm
  192.           + Universite-Mons - several versions
  193.  
  194.    Lucent Technologies Bell Labs Text-to-Speech
  195.           http://www.bell-labs.com/project/tts/
  196.           Demos and samples of the latest Lucent Technologies Bell Labs
  197.           Text-to-Speech system.
  198.  
  199.    WATSON FlexTalk from AT&T Advanced Speech Products Group
  200.           http://www.att.com/aspg/demo.html
  201.           WWW interface to the WATSON FlexTalk speech synthesis
  202.           demonstration.
  203.  
  204.    AT&T Bell Laboratories Voices
  205.           http://www.research.att.com/cgi-bin/cgiwrap/mjm/voices.cgi
  206.           WWW interface to the AT&T Bell Laboratories text to speech
  207.           (TTS) synthesizer
  208.  
  209.    Laureate from British Telecom
  210.           http://www.labs.bt.com/innovate/speech/laureate/
  211.           Demo of the Laureate speech synthesis system - not yet
  212.           commercially available.
  213.  
  214.    ORATOR from Bellcore
  215.           Online demo of the ORATOR system developed at Bellcore.
  216.           http://www.bellcore.com/ORATOR/
  217.  
  218.    SVOX from TIK, ETH in Zurich
  219.           http://www.tik.ee.ethz.ch/cgi-bin/w3svox
  220.           Demo of German speech synthesis from Institut fur Technische
  221.           Informatik und Kommunikationsnetze.
  222.  
  223.    Speech Synthesis Research at OGI
  224.           http://www.cse.ogi.edu/CSLU/research/TTS
  225.           Examples of diphone speech corpora and algorithms developed at
  226.           OGI for synthesis of American English and Mexican Spanish using
  227.           the Festival framework.
  228.  
  229.    Lyricos
  230.           http://www.cse.ogi.edu/CSLU/research/TTS/research/sing.html
  231.           Demos of the Lyricos singing voice synthesis system.
  232.           Concatenation-based synthesis of singing voice from MIDI input.
  233.  
  234.    Multi-Lingual TTS from Gerhard-Mercator University, Duisburg
  235.           http://www.fb9-ti.uni-duisburg.de/demos/speech.html
  236.           Synthesis in German, English or Japanese.
  237.  
  238.    TMH: Institutionen for Taloverforing och Musikakustik, Kungliga
  239.           Tekniska Hogskolan
  240.           http://www.speech.kth.se/info/software.html
  241.           Synthesis in Swedish, Finish, Norwegian, Icelandic, Danish,
  242.           British and American English, French, German, Italian, Spanish,
  243.           LA Spanish and Greek.
  244.  
  245.    Haskins Laboratory WWW Site
  246.           http://www.haskins.yale.edu/Haskins/MISC/special.html
  247.           Examples of several types of speech synthesis. Articulatory
  248.           Synthesis by HyperASY. SineWave Synthesis. Gestural
  249.           Computational Model. Pattern Playback system of the 1940's!
  250.  
  251.    BeSTspeech from Berkeley Speech Technologies, Inc., (BST)
  252.           http://www.bestspeech.com/weblang.html
  253.  
  254.    Eurovocs Multilingual Speech Synthesis
  255.           http://www.elis.rug.ac.be/ELISgroups/speech/research/eurovocs.h
  256.           tml
  257.           Based on Lernout and Hauspie technology.
  258.  
  259.    HADIFIX German Speech Synthesis
  260.           http://asl1.ikp.uni-bonn.de/~tpo/Hadiq.en.html
  261.           Provided by the Instituts fur Kommunikationsforschung und
  262.           Phonetik, Universitat Bonn.
  263.  
  264.    Centigram's TruVoice Demo
  265.           http://www.centigram.com/centigram/TruVoice/index.html
  266.           Allows control of speech rate, pitch and other prosodic
  267.           charateristics.
  268.  
  269.    MBROLA: Free Speech Synthesis Project
  270.           http://tcts.fpms.ac.be/synthesis/modelcmp.html
  271.           WWW demo of MBROLA which compares the quality of PSOLA,
  272.           MBR-PSOLA, LPC, and Hybrid Harmonic/Stochastic concatenative
  273.           synthesizers. Provided by the TCTS Lab, Faculti Polytechnique
  274.           de Mons, Belgium
  275.  
  276.    Institute of Phonetic Sciences
  277.           http://fonsg3.let.uva.nl/IFA-Features.html
  278.           Links to lots of on-line speech synthesis demonstrations
  279.           provided by the Institute of Phonetic Sciences of the Faculty
  280.           of Arts of the University of Amsterdam.
  281.  
  282.    Yahoo page on speech generation
  283.           http://www.yahoo.com/Science/Computer_Science/Artificial_Intell
  284.           igence/Natural_Language_Processing/Speech_Generation/ 
  285.  
  286.  
  287. ___________________________________________________________________________
  288.  
  289.                    Q5.5: Speech Synthesis Software/Hardware
  290.  
  291.    Please email any updates, corrections or additions to the following
  292.    list. The range of commercially available synthesis software is
  293.    growing rapidly so any help in keeping up to date will be appreciated.
  294.  
  295.    Other lists of speech synthesis software on the WWW include:
  296.  
  297.     Kevin Lenzo's list of Macintosh Speech Resources and Apps
  298.           http://www.cs.cmu.edu/~lenzo/mac_speech_apps.html
  299.  
  300.     Speech Toys Speech Synthesis Information
  301.           http://www.speechtoys.com/spchtoys/spsyn.html
  302.  
  303.   In the FAQ...
  304.  
  305.    The following speech recognition software/hardware is described in the
  306.    comp.speech FAQ.
  307.  
  308.    _Apple Macintosh_
  309.           * BeSTspeech from Berkeley Speech Technologies, Inc., (BST) 
  310.           * Infovox Product Range 
  311.           * Macintosh Speech Output Applications 
  312.           * Macintosh Speech Synthesis Manager 
  313.           * MacYack Pro 
  314.           * MBROLA: Free Speech Synthesis Project 
  315.           * ProVoice Developer's Speech Toolkit from First Byte 
  316.           * SENSYN speech synthesizer 
  317.           * Sound Bytes DeveloperUs Kit 
  318.           * Macintosh Speech Synthesis Manager 
  319.  
  320.    _Windows (including 95, NT, 3.1)_
  321.           * AcuVoice 
  322.           * AT&T Watson Speech Synthesis 
  323.           * BeSTspeech from Berkeley Speech Technologies, Inc., (BST) 
  324.           * Creative TextAssist and TextAssist API 
  325.           * DECtalk: Text-to-Speech from Digital 
  326.           * ETI-Eloquence 
  327.           * HADIFIX 
  328.           * Infovox Product Range 
  329.           * IPOX: All Prosodic Speech Synthesis Architecture 
  330.           * Lernout and Hauspie Text-To-Speech Windows SDK 
  331.           * Listen2 Text Reader 
  332.           * MBROLA: Free Speech Synthesis Project 
  333.           * Monologue for Windows from First Byte 
  334.           * PAM - A Text-To-Speech Application 
  335.           * ProVerbe Speech Engine from ELAN Informatique 
  336.           * ProVoice Developer's Speech Toolkit from First Byte 
  337.           * SENSYN speech synthesizer 
  338.           * Sound Bytes DeveloperUs Kit 
  339.           * Tinytalk 
  340.           * TruVoice from Centigram 
  341.           * WinSpeech 
  342.           * ZMD Speech Synthesis 
  343.  
  344.    _DOS_
  345.           * CSRE: Computerized Speech Research Environment 
  346.           * Infovox Product Range 
  347.           * MBROLA: Free Speech Synthesis Project 
  348.           * ProVoice Developer's Speech Toolkit from First Byte 
  349.           * SENSYN speech synthesizer 
  350.           * spchsyn.exe 
  351.           * Tinytalk 
  352.           * ZMD Speech Synthesis 
  353.  
  354.    _OS/2_
  355.           * ProVerbe Speech Engine from ELAN Informatique 
  356.           * ProVoice Developer's Speech Toolkit from First Byte 
  357.           * Sound Bytes DeveloperUs Kit 
  358.  
  359.    _Unix_
  360.           * AcuVoice 
  361.           * AsTeR 
  362.           * BeSTspeech from Berkeley Speech Technologies, Inc., (BST) 
  363.           * DECtalk: Text-to-Speech from Digital 
  364.           * ETI-Eloquence 
  365.           * Emacspeak - A Speech Output Subsystem For Emacs 
  366.           * Festival Speech Synthesis System 
  367.           * JSRU 
  368.           * Klatt-style synthesiser 
  369.           * KPE80 - A Klatt Synthesiser and Parameter Editor 
  370.           * "learph": Trainable text-to-phoneme software by Antonio Lucca
  371.  
  372.           * Lucent Technologies Bell Labs Text-to-Speech system 
  373.           * MBROLA: Free Speech Synthesis Project 
  374.           * Orator from Bellcore 
  375.           * ProVerbe Speech Engine from ELAN Informatique 
  376.           * rsynth 
  377.           * SENSYN speech synthesizer 
  378.           * SGI Developers Toolbox Synthesiser 
  379.           * Speak 
  380.           * TrueTalk 
  381.           * TruVoice from Centigram 
  382.  
  383.    _Integrated Circuits and Dedicated Hardware_
  384.           * Eurovocs 
  385.           * Infovox Product Range 
  386.           * ProVerbe Speech Engine from ELAN Informatique 
  387.           * RC Systems V8600/V8601 Text to Speech synthesizers 
  388.  
  389.    _Other Platforms_
  390.           * BeSTspeech from Berkeley Speech Technologies, Inc., (BST) 
  391.           * TheBigMouth (NeXT) 
  392.           * MBROLA: Free Speech Synthesis Project 
  393.           * Narrator Translator Library (Amiga) 
  394.           * Narrator (Amiga) 
  395.           * TextToSpeech Kit (NeXT) 
  396.           * Orator from Bellcore 
  397.           * SENSYN speech synthesizer 
  398.           * WreadFiles: File reader for Commodore Amiga 
  399.  
  400.    _Unknown_
  401.           * Lernout and Hauspie Text-To-Speech (3 products) 
  402.           * SIMTEL 
  403.           * Text to Phoneme Program 1 
  404.           * Text to phoneme program 2 
  405.           * Text to phoneme program 3 
  406.  
  407.  
  408.  
  409. AcuVoice
  410.  
  411.      * Platform: Windows, Solaris
  412.      * Description: AcuVoice is a natural sounding text-to-speech system
  413.        built using a concatenative approach. Currently it is available
  414.        for an American English Male Voice. Software Developer Kits are
  415.        available for the Windows Platform (32-Bit) and also for the
  416.        Solaris Platform. More information and samples are available on
  417.        the Acuvoice web site.
  418.      * Contact: AcuVoice, Inc.
  419.        84 W. Santa Clara Street, Suite 720, San Jose, CA 95113-1810
  420.        Ph: 1(408)289-1661, Fax: 1(408)289-1201
  421.        Demo: 1(408)289-1177
  422.        Email: AcuVoice1@AOL.COM
  423.        WWW: http://www.acuvoice.com/
  424.  
  425.  
  426.  
  427. AsTeR
  428.  
  429.      * Platform: UNIX
  430.      * Description: TTS front-end program which encodes structural
  431.        information about documents in speech synthesis. For more
  432.        information check out:
  433.  
  434.                 http://www.research.digital.com/CRL/personal/raman/aster/
  435.                 aster-toplevel.html
  436.  
  437.      * Operation requirements: Lisp: Lucid, clisp
  438.      * Contact: T. V. Raman
  439.        WWW: http://www.research.digital.com/CRL/personal/raman/raman.html
  440.  
  441.        Email: raman@adobe.com
  442.  
  443.  
  444.  
  445. AT&T Watson Speech Synthesis
  446.  
  447.      * Platform: Windows 95/NT on a Pentium 75 Mhz or higher
  448.      * Description: Watson is a software implementation of AT&T Bell
  449.        Laboratories voice processing technology. Watson includes BLASR
  450.        Speech Recognition (see Q6.6) and FlexTalk speech synthesis. It
  451.        requires no special hardware to run other than a standard sound
  452.        card and/or phone card. Technical details for the FlexTalk speech
  453.        synthesis include:
  454.           + Compliant with MS Speech API.
  455.           + Male and Female Voices available
  456.           + 8 KHz and 11 KHz output
  457.           + SoundBlaster compatible sound card and drivers required
  458.           + Context sensitive abbreviation expansion
  459.           + Accurate pronunciation of most proper names
  460.           + Adjustable vocal tract size, speed, volume, pitch, etc.
  461.           + American English only - other languages in development
  462.        The AT&T Advanced Speech Products Group home page provides more
  463.        detailed information including a Frequently Asked Questions list,
  464.        information for application developers on the Independent Software
  465.        Vendor (ISV) Program (including info on the SDK, licensing, and
  466.        the training program).
  467.      * Requirements: Uses 2 MB RAM, 10 MB Disk. Requires a Pentium 75 MHz
  468.        or higher (uses
  469.      * Cost and Availability: WATSON is a software-based speech platform
  470.        with a Software Developers Kit (SDK) that allows application
  471.        developers to use voice processing in their applications. It is
  472.        not available as a stand-alone product.
  473.        Licensing information (inc. price) is provided in the AT&T
  474.        Advanced Speech Products Group home page
  475.      * See also: Watson BLASR speech recognition in Q6.5, Microsoft
  476.        Speech API, and Advanced Speech API.
  477.      * Contact: AT&T Advanced Speech Products Group
  478.        Suite 700, 44 East Mifflin Street, Madison, WI 53703, USA
  479.        Ph: 1-800-5-WATSON, Fax: 1-608-259-2269
  480.        Email: aspg@attmail.com
  481.        WWW: http://www.att.com/aspg/
  482.  
  483.  
  484.  
  485. BeSTspeech from Berkeley Speech Technologies, Inc., (BST)
  486.  
  487.      * Platform: available for Macintosh, Sun, Silicon Graphics, Windows
  488.        PC and IBM RS/6000 platforms, and can be ported to others.
  489.      * Description: BeSTspeech reads ASCII text no vocabulary limits.
  490.        Available for Dutch, English (male and female), French, German,
  491.        Italian, Portuguese, Spanish, Arabic, Cantonese, Japanese, Korean,
  492.        Malay, Mandarin and Russian.
  493.      * Availability: Berkeley Speech Technologies, Inc does not sell end
  494.        user toolkits or products.
  495.      * Contact: Berkeley Speech Technologies, Inc.
  496.        2246 Sixth Street, Berkeley, California 94710, USA
  497.        Ph: (510) 841-5083, Fax: (510) 841-5093
  498.        Email: webmaster@bst.com
  499.        WWW: http://www.bestspeech.com/index.html
  500.  
  501.  
  502.  
  503. TheBigMouth - a Text to Speech Program
  504.  
  505.      * Platform: NeXT
  506.      * Description: Text to speech program based on concatenation of
  507.        pre-recorded speech segments.
  508.      * Availability:
  509.        ftp://ftp.cs.keio.ac.jp/pub/NeXT/source/TheBigMouth1.0.tar.Z
  510.  
  511.  
  512.  
  513. Creative TextAssist
  514.  
  515.      * Platform: Windows
  516.      * Description: Based on DECtalk speech synthesis. A detailed
  517.        description of TextAssist is provided on the Creative WWW pages.
  518.        TextAssist TextReader provides a convenient Windows user interface
  519.        for text reading.
  520.      * Availability: Creative TextAssist is bundled with most (all?)
  521.        Creative Sound Blaster audio cards. TextAssist preview software is
  522.        available from the Creative Labs TextAssist home page.
  523.      * Contact: Creative Labs, Inc.
  524.        Address, phone, email etc unknown
  525.        WWW: http://www.creaf.com/ :
  526.        http://www.creaf.com/wwwnew/tech/devcnr/tassist.html
  527.  
  528. Creative TextAssist API
  529.  
  530.      * Platform: Windows
  531.      * Description: The TextAssist API (TAAPI) is created for Microsoft
  532.        Windows 3.1x and Windows 95 developers who intend to develop
  533.        16-bit Text-to-Speech software applications using Creative's
  534.        TextAssist speech engine. It supports direct control of speech
  535.        output characteristics, concurrent playback of text-to-speech and
  536.        wave files, foreign language support, speech synchronization,
  537.        exception dictionaries. It also includes a voice editing tool for
  538.        creating new custom voices, a Visual Basic Custom Control for
  539.        high-level support in Visual Basic and other languages
  540.      * Availability: The TextAssist API is released to registered
  541.        developers at no cost.
  542.      * Contact: WWW: http://www.creaf.com/
  543.        FAQ: http://www.creaf.com/wwwnew/tech/devcnr/tassfaq.html
  544.  
  545.  
  546.  
  547. CSRE: Computerized Speech Research Environment
  548.  
  549.      * Platform: DOS
  550.      * Description: CSRE is a software system which includes in an
  551.        implementation of the Klatt speech synthesizer. See the CSRE entry
  552.        in Q1.9 and the AVAAZ WWW pages for more detail.
  553.      * Contact: AVAAZ Innovations Inc.
  554.        P.O.Box 8040, 1225 Wonderland Rd. N, London, Ontario, CANADA, N6G
  555.        2B0
  556.        Ph: +1-519-472-7944 , Fax: +1-519-472-7814
  557.        Email: info@avaaz.com
  558.        WWW: http://www.icis.on.ca/homepages/avaaz/
  559.  
  560.  
  561.  
  562. DECtalk Speech Synthesis
  563.  
  564.      * Platform: Windows NT, Alpha with Digital UNIX and RS232 ports
  565.      * Description: Converts ordinary text into natural-sounding,
  566.        intelligible speech. Provides personalized voices, and extensive
  567.        user controls. DECtalk technology is available for the following
  568.        packaging options.
  569.           + DECtalk PC card option: An industry-standard ISA/EISA bus
  570.             card implementation that can be integrated with any Intel 486
  571.             processor-based system running DOS or Windows. Applications
  572.             can be interfaced to the bus via a DOS Terminate and Stay
  573.             Resident (TSR) driver or a Windows Dynamic Link Library
  574.             (DLL). This option is available with an external speaker with
  575.             volume control and headphone jack.
  576.           + DECtalk Express external package: An external, portable
  577.             package that you can plug in to any PC or serial port. The
  578.             external package includes a built-in speaker and headphone
  579.             jack, plus combined on/off and volume controls and a
  580.             rechargeable battery pack.
  581.           + DECtalk Software solution: Software-only text to speech for
  582.             Alpha or Intel systems running Windows NT or Alpha systems
  583.             running Digital UNIX. Provides complete speech synthesis
  584.             capabilities so developers can enhance applications with
  585.             DECtalk technology. DECtalk Software output can be directed
  586.             to audio devices, into WAVE files, or into memory buffers.
  587.      * Pricing:
  588.        ://www.systems.digital.com/DIcatalog/html/DECtalk-Speech-Synthesis
  589.        -oi.html
  590.      * More Information:
  591.        Digital Equipment Corporation WWW pages: http://www.digital.com/
  592.        DECtalk page:
  593.        http://www.systems.digital.com/DIcatalog/html/DECtalk-Software.htm
  594.        l
  595.        Ph: 1-800-DIGITAL
  596.  
  597. DECtalk Software
  598.  
  599.      * Platform: Digital UNIX and Windows NT
  600.      * Description: DECtalk converts standard ASCII text into natural,
  601.        intelligible speech. Speech output through any audio device is
  602.        supported by Microsoft Video for Windows or Multimedia Services
  603.        for Digital UNIX. An API gives developers direct access to
  604.        text-to-speech functions. Provides nine voice personalities (4
  605.        female, 4 male, 1 child). Provides punctuation and tonal control,
  606.        supports customized pronunciation of trade jargon and acronyms.
  607.        Common programming interface works with both Alpha and Intel
  608.        platforms.
  609.      * More Information:
  610.        Digital Equipment Corporation WWW pages: http://www.digital.com/
  611.        DECtalk Software page:
  612.        http://www.systems.digital.com/DIcatalog/html/DECtalk-Software.htm
  613.        l
  614.        WWW:
  615.        http://www.systems.digital.com/DIcatalog/html/DECtalk-Speech-Synth
  616.        esis.html
  617.        Ph: 1-800-DIGITAL
  618.  
  619.  
  620.  
  621. ETI-Eloquence
  622.  
  623.      * Platform: MS Windows (Win95,NT,3.1), Solaris, SunOS, SGI, RS/6000
  624.      * Description: ETI-Eloquence is a software based text-to-speech
  625.        system. It generates waveforms completely algorithmically instead
  626.        of by concatenating waveforms, for maximum flexibility and
  627.        naturalism. For instance, when the user requests a deeper voice,
  628.        the software simulates a larger vocal tract, instead of simply
  629.        pitch-shifting samples. It uses high-level linguistic parsing,
  630.        which obviates the need for a huge dictionary. It handles numbers,
  631.        acronyms, currency, etc. It includes a set of annotation symbols,
  632.        for placing stress on particular words, expressing
  633.        excitement/boredom, etc. Also allows phonetic input. Supports MS
  634.        SAPI.
  635.        Produces male and female voices for General American English.
  636.        Dialects under development include Alabama and Brooklyn.
  637.      * Price: Flexible license agreements on application.
  638.      * Availability:Eloquent Technology, Inc.
  639.        2389 North Triphammer Road, Ithaca, NY 14850 , USA
  640.        Ph: (607) 266-7025, Fax: (607) 266-7030
  641.        Email: info@eloq.com
  642.        WWW: http://www.eloq.com/
  643.  
  644.  
  645.  
  646. Emacspeak - A Speech Output Subsystem For Emacs
  647.  
  648.      * Platform: UNIX, Emacs
  649.      * Description: Emacspeak is a speech output system that will allow
  650.        someone who cannot see to work directly on a UNIX system.
  651.        Emacspeak is built on top of Emacs. With emacspeak loaded, Emacs
  652.        provides spoken feedback for everything you do. Emacspeak
  653.        currently supports the new Dectalk Express speech synthesizer, as
  654.        well as older versions of the Dectalk e.g. the MultiVoice. See the
  655.        Emacspeak WWW page, the Emacspeak FAQ or the Emacspeak
  656.        distribution for additional details.
  657.      * Requirements: Requires GNU FSF Emacs 19 (version 19.23 or later)
  658.        and TCLX 7.3B (Extended TCL) to run Emacspeak.
  659.      * Availability:
  660.  
  661.         Emacspeak WWW page
  662.                 http://www.research.digital.com/CRL/personal/raman/emacsp
  663.                 eak/emacspeak.html
  664.  
  665.         Emacspeak source
  666.                 http://www.research.digital.com/CRL/personal/raman/emacsp
  667.                 eak/emacspeak.tar.gz
  668.  
  669.      * Contact: T. V. Raman, raman@adobe.com
  670.  
  671.  
  672.  
  673. Eurovocs
  674.  
  675.      * Platform: Various - RS232 hardware connection
  676.      * Description: Eurovocs is a stand-alone text-to-speech synthesizer
  677.        which uses the text-to-speech technology of Lernout and Hauspie
  678.        Speech Products. Available for Dutch, French, German and American
  679.        English with other languages planned for release soon. One
  680.        Eurovocs device can support two different languages. Eurovocs can
  681.        be connected to any computer via a standard serial interface
  682.        (RS232). It supports personal dictionaries, generation of DTMF
  683.        tones, and pronunciation of special character sequences such as
  684.        digit strings, telephone-numbers, date and time indications,
  685.        abbreviations, alphanumeric strings etc.
  686.      * Contact: Technologie & Revalidatie
  687.        Postbus 128, B-9000 Gent, Belgium
  688.        Ph: +32-9-264 33 97, Fax: +32-9-264 35 94
  689.        E-mail: noe@elis.rug.ac.be
  690.        WWW:
  691.        http://www.elis.rug.ac.be/ELISgroups/speech/research/eurovocs.html
  692.  
  693.  
  694.  
  695. Festival Speech Synthesis System
  696.  
  697.      * Platform: General Unix (including Solaris (2.4,2.5), SunOS, HPUX,
  698.        SGIs, Linux, Dec Alpha, FreeBSD)
  699.      * Description: Festival is a general multi-lingual speech synthesis
  700.        system developed at CSTR, University of Edinburgh. It offers a
  701.        full text to speech system with various APIs, as well an
  702.        environment for development and research of speech synthesis
  703.        techniques. It is written in C++ with a Scheme-based command
  704.        interpreter for general control. Festival's home page offers
  705.        demos, the full manual and access to the download page. The
  706.        distribution includes full source and documentation, and lexicons
  707.        and speech databases for British English text to speech.
  708.      * Price: Free for non-commercial use
  709.      * Availability: by anonymous ftp:
  710.        WWW: http://www.cstr.ed.ac.uk/projects/festival/download.html
  711.        ftp: ftp://ftp.cstr.ed.ac.uk/pub/festival/
  712.  
  713.  
  714.  
  715. HADIFIX
  716.  
  717.      * Platform: Windows
  718.      * Description: German speech synthesis system developed at the
  719.        Institute for Communications Research and Phonetics , University
  720.        of Bonn. Provides conversion of input text to phonemes, automatic
  721.        prediction of stress, phrasing and pitch, and speech generation by
  722.        concatenation of small units of natural speech. Demisyllables and
  723.        similar units are used; they comprise all consonants before the
  724.        vowel and the beginning of the vowel (initial demisyllable) or the
  725.        end of the vowel and the following consonants (final
  726.        demisyllable). For example, the word 'Strolch' is formed by
  727.        concatenating 'Stro' and 'olch'.
  728.      * Demo: Windows demo software available. Limited to synthesis of one
  729.        short text (text.txt) at a time. Speech format limitations too.
  730.        1.3MB file.
  731.        ftp://asl1.ikp.uni-bonn.de/pub/hadifix/hadidemo.zip
  732.        A 1993 version is available with unlimited synthesis from a string
  733.        of phonemic symbols and accent markers. 6MB file.
  734.        ftp://asl1.ikp.uni-bonn.de/pub/hadifix/hadi25.lzh
  735.      * WWW: http://asl1.ikp.uni-bonn.de/~tpo/Hadifix.en.html
  736.      * On-line demo: http://asl1.ikp.uni-bonn.de/~tpo/Hadiq.en.html
  737.  
  738.  
  739.  
  740. Infovox Product Range
  741.  
  742.      * Description: Multilingual Text-to-speech systems, languages
  743.        available: American English, British English, German, French,
  744.        Spanish, Italian, Swedish, Norwegian, Icelandic, Danish and
  745.        Finnish.
  746.      * Product name:INFOVOX 500, PC BOARD
  747.           + Product description: Half length expansion board for IBM PC,
  748.             XT, AT, PS/2 model 30 or compatible personal computers. The
  749.             board can also be connected via the serial port. Language and
  750.             control program for downloading into RAM or mounted on EPROMs
  751.           + Platform: DOS/Windows with IBM PC, XT, AT, PS/2 model 30 or
  752.             compatible
  753.           + Delivered standard interface: MS DOS I/O driver
  754.      * Product name: INFOVOX 600, OEM BOARD
  755.           + Product description: OEM board built with CMOS IC's. Language
  756.             and control program are stored in on-board fixed memory.
  757.           + Platform: any, hardware interface: 9-pole D-SUB (RS 232-C)
  758.             300-9600 Baud.
  759.           + Delivered standard interfaces: MS DOS I/O driver and
  760.             interface to Apple Speech manager.
  761.      * Product name: INFOVOX 700, DESKTOP UNIT
  762.           + Product description: Desktop unit with built in Infovox 600
  763.             to be connected to any computer or terminal via an RS 232-C
  764.             serial interface. Built in loudspeaker and rechargable
  765.             battery for 4 hours use, and control knobs for continuous
  766.             control of speech volume and speed.
  767.           + Platform: various through hardware interface
  768.           + Delivered standard interfaces: MS DOS I/O driver and
  769.             interface to Apple Speech manager
  770.      * Product name: INFOVOX 650, OEM BOARD
  771.           + Product description: OEM-board built with CMOS IC's. Language
  772.             and control program are stored in on-board memory.
  773.           + Platform: any, hardware interface: 9 pole D-SUB (RS 232-C)
  774.             300-9600 Baud
  775.           + Delivered standard interfaces: MS DOS I/O driver and
  776.             interface to Apple Speech manager
  777.      * Product name: INFOVOX 750, DESKTOP UNIT
  778.           + Product description: Desktop unit with built in Infovox 650
  779.             to be connected to any computer or terminal via an RS 232-C
  780.             serial interface. Built in loudspeaker and rechargable
  781.             battery for 5 hours use, and a control knob for continuous
  782.             control of speech volume.
  783.           + Platform: various through hardware interface. Delivered
  784.             standard interfaces include MS DOS I/O driver and interface
  785.             to Apple Speech manager
  786.      * Product name: Infovox 210, software for Apple Macintosh
  787.           + Product description: Software based text-to-speech
  788.             conversion. Produces 16 bit and 8 bit sound. Delivered on
  789.             3.5" diskettes with user lexicon and a complete
  790.             documentation.
  791.           + Platform: Apple Macintosh with minimum 68030, 33 MHz
  792.             microprocessor.
  793.           + Delivered standard interfaces: Standard interface to Apple
  794.             Speech manager
  795.      * Product name: Infovox 220, software for Microsoft Windows.
  796.           + Product description: Software based text-to-speech
  797.             conversion. Produces 16 bit sound and conforms to Microsoft
  798.             Windows multimedia standard MCI. Delivered on 3.5" diskettes
  799.             with user lexicon and a complete documentation.
  800.           + Platform: Windows on IBM compatible PC with minimum 486/25MHz
  801.             microprocessor.
  802.           + Delivered standard interfaces: Standard interface to
  803.             Microsoft Windows 3.1 and sound boards supporting Microsoft
  804.             Windows multimedia driver for audio.
  805.      * Contact: Telia Promotor Infovox AB
  806.        TTS Sales Division
  807.        P.O. Box 2069, S-171 02 Solna, Sweden
  808.        Ph: +46 8 764 35 00, Fax: +46 8 735 78 76
  809.        Email: tts-sales@infovox.se
  810.        WWW: http://www.promotor.telia.se/NYA/cc/t-s/index.html
  811.  
  812.  
  813.  
  814. IPOX: All Prosodic Speech Synthesis Architecture
  815.  
  816.      * Platform: Windows
  817.      * Description: IPOX is an experimental, all-prosodic speech
  818.        synthesizer, developed by Arthur Dirksen and John Coleman. IPOX is
  819.        freely available (after registration) for evaluation and
  820.        non-profit research purposes.
  821.      * Requirements: PC (preferably a fast 486) running Windows 3.1 or
  822.        higher. Sound output requires a 16-bit Windows-compatible sound
  823.        card
  824.      * Availability: By WWW from
  825.        http://www.tue.nl/ipo/people/adirksen/ipox/ipox.htm
  826.  
  827.  
  828.  
  829. JSRU
  830.  
  831.      * Platform: UNIX and PC
  832.      * Cost: 100 pounds sterling (from academic institutions and
  833.        industry)
  834.      * Description: A C version of the JSRU system, Version 2.3 is
  835.        available. It's written in Turbo C but runs on most Unix systems
  836.        with very little modification. A Form of Agreement must be signed
  837.        to say that the software is required for research and development
  838.        only.
  839.      * Contact: Dr. E.Lewis _eric.lewis@bristol.ac.uk)_
  840.  
  841.  
  842.  
  843. Klatt-style synthesiser
  844.  
  845.      * Platform: Unix
  846.      * Cost: Free
  847.      * Description: Software posted to comp.speech in late 1992.
  848.      * Availability: By ftp from the comp.speech ftp site
  849.           +
  850.             ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/synthesis/klatt.3.
  851.             04.tar.gz 
  852.           +
  853.             ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/synthesis/klatt.3.
  854.             04.tar.Z 
  855.      * See also: KPE80 - A Klatt Synthesiser and Parameter Editor.
  856.  
  857.  
  858.  
  859. KPE80 - A Klatt Synthesiser and Parameter Editor
  860.  
  861.      * Platform: Unix
  862.      * Description: The KPE80 program provides a graphical interface for
  863.        the implementation of the Klatt 1980 formant synthesiser written
  864.        by Jon Iles and Nick Ing-Simmons. It was inspired by IGE, a piece
  865.        of code written by Rob Fletcher (
  866.        http://www.york.ac.uk/~rpf1/IGE.html).
  867.      * Technical Desc.: It is comprised of an X-Window interface and
  868.        version 3.03 of the synthesiser code. The interface allows users
  869.        to display and edit Klatt parameters using a graphical display
  870.        which includes the time-amplitude waveform of both the original
  871.        speech and its synthetic copy, and some signal analysis
  872.        facilities. Most of the work in choosing the parameter values to
  873.        produce the synthetic copy has to be done by the user. KPE will
  874.        estimate the fundamental frequency contour from an original token;
  875.        this estimate will need to be amended where errors occur. It is
  876.        possible to specify the formant trajectories with some precision
  877.        by overlaying the appropriate formant frequency parameter tracks
  878.        on the spectrogram of the target waveform. A number of facilities
  879.        exist to help in the refinement of parameter values: original and
  880.        synthetic waveforms can be compared aurally, spectrally, and
  881.        spectrographically using built-in speech analysis facilities.
  882.      * File formats: KPE will read RIFF (.wav) files and SFS files. (SFS
  883.        is a suite of speech-signal processing programs available free
  884.        from Phonetics and Linguistics, UCL.)
  885.      * Availability:
  886.  
  887.         KPE for SunOs 4.1.3 (statically compiled libraries)
  888.                 ftp://pitch.phon.ucl.ac.uk/pub/kpe/kpe80.sun413.tar.Z
  889.  
  890.         KPE for Linux (statically compiled libraries)
  891.                 ftp://pitch.phon.ucl.ac.uk/pub/kpe/kpe80.linux.tar.Z
  892.  
  893.         The source code (needs gcc and SUIT to compile)
  894.                 ftp://pitch.phon.ucl.ac.uk/pub/kpe/kpe80.src.tar.Z
  895.  
  896.         A postscript overview of KPE
  897.                 ftp://pitch.phon.ucl.ac.uk/pub/kpe/OVERVIEW.ps
  898.  
  899.         The SFS distribution
  900.                 ftp://pitch.phon.ucl.ac.uk/pub/sfs/
  901.  
  902.      * See also: Public domain Klatt-style speech synthesis code.
  903.      * Contact: Andrew Simpson
  904.        Department of Phonetics and Linguistics, University College London
  905.  
  906.        Wolfson House, 4 Stephenson Way, London NW1 2HE
  907.        Email: a.simpson@ucl.ac.uk
  908.        WWW: http://www.phon.ucl.ac.uk/home/andrew/home.html
  909.  
  910.  
  911.  
  912. "learph": Trainable text-to-phoneme software by Antonio Lucca
  913.  
  914.      * Platform: UNIX
  915.      * Description: Experimental software which learns text to phoneme
  916.        translation from examples using decision-tree-like data
  917.        structures. It is based on the assumption that each letter can
  918.        correspond to different phoneme strings depending on the context.
  919.      * Availability: Examples and source are available on the WWW:
  920.        http://www.silab.dsi.unimi.it/~al367212/ttsdoc.html
  921.      * Contact: Antonio Lucca: toninlcc@tesi.dsi.unimi.it
  922.  
  923.  
  924.  
  925. Lernout & Hauspie Text-to-Speech (3 products)
  926.  
  927.    Lernout & Hauspie have three TTS products. The functionality of the
  928.    products is similar, however, they differ in hardware implementation
  929.    and other details where described below.
  930.  
  931.      * L&H tts2000/T: TTS for the Telephony and Telecommunications Market
  932.      * L&H tts2000/M: TTS for the Computer and Multimedia Market
  933.      * L&H tts3000/C: TTS for the Buisness and Consumer Electronics
  934.        Market
  935.  
  936.      * Description: Text to Speech (TTS) software based on parameterized
  937.        segment concatenation (diphones, triphones and tetraphones)
  938.        algorithms. Available for US English, German, Dutch, French,
  939.        Spanish (Castilian), Italian and Korean. General features include:
  940.           + The control of volume, speech rate and speech pitch.
  941.           + The use of control sequences to customize TTS output (adding
  942.             pauses, using phonetic input, etc.).
  943.           + Switching between languages at run time.
  944.           + A personal vocabulary editor is available for building
  945.             exception dictionaries.
  946.           + Readout modes: letter by letter, word by word or sentence by
  947.             sentence.
  948.           + Input formats: orthographic input, phonetic input, phonetic
  949.             input with prosodic information.
  950.      * tts2000/T
  951.           + Output formats: 8 bit mu-law PCM, 8 bit A-law PCM, 16 bit
  952.             linear PCM.
  953.           + Sampling Frequency: 8kHz
  954.           + Single channel platform examples: SHARP SH7000, ARM6/ARM7,
  955.             Intel i960, TI TMS320C31, AT&T DSP3210
  956.           + Multi-channel platform examples: TI TMS320C31, AT&T DSP3210
  957.      * tts2000/M
  958.           + Output formats: 8/16 bit wave format, 8 bit mu-law PCM, 8 bit
  959.             A-law PCM, 16 bit linear PC.
  960.           + Sampling Frequency: 8/10/11.025 kHz
  961.           + Single processor platform examples: ARM6/ARM7, Intel
  962.             386/486/Pentium, Motorola 68040
  963.           + Two processor platform examples: {Intel 386/486/Pentium or
  964.             Motorola 68030} and {ADI ADSP21XX or Motorola 5600X or TI
  965.             TMS320C25/20C5X}
  966.      * tts3000/C
  967.           + Output formats: 8 bit mu-law PCM, 8 bit A-law PCM, 16 bit
  968.             linear PCM.
  969.           + Sampling Frequency: 10kHz
  970.           + Single processor platform examples: SHARP SH7000, ARM6/ARM7,
  971.             Intel i960, TI TMS320C31, AT&T DSP3210
  972.           + Two processors platform examples: { SHARP SH7000 or ARM6/ARM7
  973.             or Intel 386EX or Motorola 683XX} and {ADI ADSP21XX or
  974.             Motorola 5600X or TI TMS320C25/C5X or TI TSP50C10}
  975.      * See also: L&H Windows TTS SDK
  976.      * More Information: on the Lernout & Hauspie WWW pages:
  977.        http://www.lhs.com/tts.html
  978.      * Price: Unknown
  979.      * Contact: Lernout and Hauspie Speech Products
  980.        20 Mall Road, 4th Floor
  981.        Burlington, MA 01803, USA
  982.        Ph: +1-617-238-0960, Fax: +1-617-238-0986
  983.        Email: sales@lhs.com
  984.        WWW: http://www.lhs.com/
  985.  
  986.  
  987.  
  988. Lernout & Hauspie Text-to-Speech Windows SDK
  989.  
  990.      * Platform: Windows
  991.      * Description: The L&H Text-to-Speech software developers kit is
  992.        able to integrate text-to-speech technology with your own or
  993.        existing PC applications under Microsoft Windows 3.1. This
  994.        software will allow conversion of written text into clear human
  995.        sounding synthetic speech.
  996.      * Requirements: IBM-compatible PC 386 DX/33 + 8Mb RAM + MS DOS 5.0 +
  997.        MS Windows 3.1 (or higher) + SoundBlaster compatible sound board.
  998.      * See also: L&H TTS Products
  999.      * More Information: on the Lernout & Hauspie WWW pages:
  1000.        http://www.lhs.com/tts.html
  1001.      * Price: Unknown
  1002.      * Contact: Lernout and Hauspie Speech Products
  1003.        20 Mall Road, 4th Floor
  1004.        Burlington, MA 01803, USA
  1005.        Ph: +1-617-238-0960, Fax: +1-617-238-0986
  1006.        Email: sales@lhs.com
  1007.        WWW: http://www.lhs.com/
  1008.  
  1009.  
  1010.  
  1011. Listen2 Text Reader
  1012.  
  1013.      * Platform: Windows
  1014.      * Description: Listen2 is a multi-voice, multi-language text reader.
  1015.        Listen2 comes in two versions, English only that uses high quality
  1016.        male and female voices, and the International version that can
  1017.        speak up to 5 different languages: English, German, French,
  1018.        Spanish or Italian, all in male voices. The basic International
  1019.        program comes with built-in English and additional language fonts
  1020.        can be purchased separately. The English version comes complete.
  1021.        Both programs are dynamically switchable and configurable. This
  1022.        means that you can press a hot key to speed up the speech, make it
  1023.        louder or quieter, etc., as it is reading a file. You can also
  1024.        insert flags in text files to make it switch voices or switch
  1025.        languages, depending on what version you have.
  1026.        Listen2 has all the features of the JTS Reader shareware program
  1027.        plus a few more. It will voice your reminder messages or
  1028.        appointment list on start-up. It will also speak a reminder
  1029.        message on shutting down.
  1030.      * WWW: A more complete description is available on the Listen2 web
  1031.        page
  1032.      * Contact: Tom Slemko: e-mail: tslemko@islandnet.com, or,
  1033.        JTS Micro Consulting Ltd
  1034.        10931 Lytton Road, RR#4, Ladysmith, B.C., Canada, V0R 2E0
  1035.        WWW: http://www.islandnet.com/jts/
  1036.  
  1037.  
  1038.  
  1039. Lucent Technologies Bell Labs Text-to-Speech system
  1040.  
  1041.      * Platform: UNIX and Win-95/NT
  1042.      * Description:Lucent Technologies provides a web site with demos and
  1043.        samples of their latest speech synthesis technology. The site has
  1044.        interactive demos in American English, German, and Mandarin
  1045.        Chinese, and the capability to adjust voice parameters on the fly.
  1046.        Pre-synthesized demos for French, Italian, Russian, and Romanian
  1047.        are also provided.
  1048.        The site includes downloadable papers with detailed system
  1049.        descriptions.
  1050.      * WWW: http://www.bell-labs.com/project/tts/
  1051.  
  1052.  
  1053.  
  1054. Macintosh Speech Output Applications
  1055.  
  1056.      * Platform: Macintosh
  1057.      * Description: A comprehensive list of Macintosh Speech Applications
  1058.        is provided by Kevin Lenzo at CMU:
  1059.        http://www.cs.cmu.edu/~lenzo/mac_speech_apps.html
  1060.        The Apple Speech WWW Site also has some useful information:
  1061.        http://www.speech.apple.com/
  1062.  
  1063.  
  1064.  
  1065. Speech Manager and PlainTalk
  1066.  
  1067.      * Platform: Macintosh
  1068.      * Description: Apple's text-to-speech system extensions that enable
  1069.        applications to perform text-to-speech conversion. The Speech
  1070.        Manager runs on most Macs, but PlainTalk (and the high quality
  1071.        voices) requires a 68020 Mac or better.
  1072.      * Availability: By anonymous ftp from:
  1073.        ftp://ftp.support.apple.com/pub/apple_sw_updates/US/Macintosh/Syst
  1074.        em/PlainTalk 1.4.1/
  1075.        This directory contains subdirectories for recent versions of
  1076.        PlainTalk. The current release (PlainTalk 1.4.1) contains the
  1077.        English Text-To-Speech with about a dozen voices
  1078.        (English_Text-to-Speech.hqx: 5.3 MByte), Mexican Spanish
  1079.        (Mexican_Spanish_TTS.hqx: 2.8 MByte), and the English Speech
  1080.        Recognition software (English_Speech_Recognition.hqx: 2.3MByte).
  1081.      * Cost: Free
  1082.      * WWW: The latest information is available from Apple's WWW page for
  1083.        speech recognition and synthesis:
  1084.        http://www.speech.apple.com/
  1085.      * Note 1: Check out Kevin Lenzo's list of Macintosh Speech
  1086.        Applications.
  1087.      * Note 2: Joshua Baer (josh@skyweyr.com) runs a mailing list for
  1088.        Plaintalk. For subscription and other information visit the
  1089.        Plaintalk Discussion List Home page
  1090.      * Contact: Apple Computer, Inc.
  1091.        1 Infinite Loop, Cupertino, CA 95014, USA
  1092.        WWW: http://www.speech.apple.com/
  1093.        Email: PlainTalk@atg.apple.com
  1094.  
  1095.  
  1096.  
  1097. MacYack Pro
  1098.  
  1099.      * Platform: Macintosh
  1100.      * Description: MacYack Pro is a commercial speech package for
  1101.        Macintosh that uses the PlainTalk Text-to-Speech synthesis
  1102.        software. Features include:
  1103.           + Add speech to any word processor.
  1104.           + Hear notification dialogs and other dialog boxes.
  1105.           + See and hear a customized message at startup or shutdown.
  1106.           + Hear calculations instantly.
  1107.           + Correct pronounciation errors.
  1108.           + Create custom double-clickable "speech files."
  1109.           + Have speaking alert sounds.
  1110.           + Add speech to HyperCard stacks.
  1111.           + Use AppleScript to add speech to other programs.
  1112.      * Price: $29.95 for a limited time, reduced from $49.95 regular
  1113.        price. 30 days money back guarantee.
  1114.      * Contact: Scantron Quality Computers
  1115.        20200 Nine Mile Rd. St. Clair Shores, MI 48080
  1116.        Ph: 1-800-777-3642, Fax: 810-774-2698
  1117.        E-mail: sales@sqc.com
  1118.        WWW: http://www.sqc.com/
  1119.        Product Info: http://www.lowtek.com/macyack/
  1120.  
  1121.  
  1122.  
  1123. MBROLA: Free Speech Synthesis Project
  1124.  
  1125.      * Platform: Sun4, Sun/SunOS5.4, HP, VAX/VMS, DEC Alpha/VMS, PS/DOS,
  1126.        PS/Windows 3.1, PS/Windows 95, PC/Solaris2.4, PC/Linux, SGI
  1127.        INDY/IRIX, NeXT, and soon for Macintosh.
  1128.      * Description: MBROLA is a high-quality, diphone-based speech
  1129.        synthesizer which is available for free. It is provided by the
  1130.        TCTS Lab of the Faculte Polytechnique de Mons (Belgium) which aims
  1131.        to obtain a set a speech synthesizers for as many languages as
  1132.        possible which will be free of use for non-commercial,
  1133.        non-military applications.
  1134.        MBROLA 2.00 takes a list of phonemes as input, together with
  1135.        prosodic information (duration of phonemes and a piecewise linear
  1136.        description of pitch), and produces 16bit speech samples at the
  1137.        sampling frequency of the diphone database (typically 16kHz). (It
  1138.        is therefore NOT a Text-To-Speech (TTS) synthesizer, since it does
  1139.        not accept raw text as input.) Databases are now being prepared
  1140.        for English, Spanish, Italian, Dutch, and Romanian. Collaborations
  1141.        are welcome. More information can be found at the MBROLA project
  1142.        homepage.
  1143.      * Demonstration: WWW demo of MBROLA which compares the quality of
  1144.        PSOLA, MBR-PSOLA, LPC, and Hybrid Harmonic/Stochastic
  1145.        concatenative synthesizers is available at
  1146.        http://tcts.fpms.ac.be/synthesis/modelcmp.html.
  1147.      * Contact: Dr Thierry Dutoit
  1148.        Faculte Polytechnique de Mons, TCTS Lab,
  1149.        31, bvd Dolez, B-7000 Mons, Belgium.
  1150.        Ph: +32-65-374133, Fax: +32-65-374129
  1151.        e-mail: mbrola@tcts.fpms.ac.be
  1152.        WWW: http://tcts.fpms.ac.be/synthesis/mbrola.html
  1153.  
  1154.  
  1155.  
  1156. Monologue for Windows from First Byte
  1157.  
  1158.      * Platform: Windows
  1159.      * Description: Monologue is a software program that reads text from
  1160.        the clipboard in Windows 16 or 32 bit applications. It can be
  1161.        found as a bundled product with many sound cards and multimedia
  1162.        general purpose computer systems. Monologue can add the element of
  1163.        speech to virtually any text oriented application. Any
  1164.        pronounceable combination of letters and numbers will be spoken
  1165.        clearly. It can be applied to tasks such as eyes-free
  1166.        proofreading, data verification (e.g. spreadsheets), reading
  1167.        E-mail and more. User-changeable parameters provide control over
  1168.        the sound quality by allowing for changes in pitch, and the speed
  1169.        of speech. An exception dictionary saves preferred pronunciation
  1170.        of words and abbreviations.
  1171.        Monologue Win32 now includes support for the Microsoft SAPI.
  1172.        Monologue male "SpeechFonts" are available for US English, British
  1173.        English, German, French, Latin American Spanish, Italian. A US
  1174.        English Female SpeechFont is also available.
  1175.        For more detailed information and examples go to the First Byte
  1176.        WWW pages.
  1177.      * Availability: Currently bundled with many sound cards and
  1178.        multimedia general purpose computer systems. For pricing,
  1179.        licensing details, and release information see the First Byte WWW
  1180.        pages or email info@firstbyte.davd.com.
  1181.      * See also: ProVoice Developer's Speech Toolkit from First Byte
  1182.      * Contact: First Byte
  1183.        19840 Pioneer Ave., Torrance, CA 90503
  1184.        Ph: 310-793-0610 Fax: 310-793-0611
  1185.        Email: info@firstbyte.davd.com
  1186.        WWW: http://www.firstbyte.davd.com/
  1187.  
  1188.  
  1189.  
  1190. Narrator Translator Library
  1191.  
  1192.      * Platform: Amiga
  1193.      * Description: A US English text to phoneme translator, implemented
  1194.        as a resident software library, for use with the Amiga Narrator
  1195.        Device. This software was supplied as a standard part of the Amiga
  1196.        operating system software up to O.S version 2.04. (Translator
  1197.        version 37.1, 1991) Approximately 700 translation rules are used
  1198.        to create the 'ARPAbet' phonemes. This software is functional on
  1199.        all current Amiga systems (O.S. 3.1).
  1200.      * Availability: limited to pre-owned system software disks and
  1201.        unsold O.S upgrade kits (Pre-O.S. 2.1).
  1202.  
  1203. Replacement Library: Translator42
  1204.  
  1205.      * Platform: Amiga
  1206.      * Description: an independent replacement for the Commodore-supplied
  1207.        "translator.library" which is a part of the Narrator speech
  1208.        synthesis package. It implements multi-lingual text-to-speech for
  1209.        an Amiga. The translation rules for each language are defined in a
  1210.        plain text 'Accent' file.
  1211.        There is a provision for the selection of unique languages for
  1212.        text segments by inserting in-line markup codes in the text: e.g.
  1213.        "Hello there! \french{Bonjour} \deutsch{gute morgen}".
  1214.        'Accent' files for American English, British English, Swedish,
  1215.        Maori, Finnish, German, Icelandic, Klingon, Polish, Italian, and
  1216.        Welsh languages included in the archive.
  1217.      * Availability: Amiga The most current version, 42.4, of the library
  1218.        and source are available by anonymous ftp from Aminet:
  1219.        ftp://ftp.doc.ic.ac.uk/pub/aminet/util/libs/translator42.lha
  1220.        ftp://ftp.doc.ic.ac.uk/pub/aminet/dev/src/tran42src.lha
  1221.  
  1222.  
  1223.  
  1224. Narrator
  1225.  
  1226.      * Platform: Amiga
  1227.      * Description: Formant based speech synthesis. Includes a
  1228.        Engish-to-phoneme translation library, and a SPEAK: pseudo-device
  1229.        for speech output.
  1230.      * Hardware: Standard Amiga hardware
  1231.      * Availability: Part of AmigaOS
  1232.      * See Also: The Narrator Translation library
  1233.  
  1234.  
  1235.  
  1236. TextToSpeech Kit
  1237.  
  1238.      * Platform: NeXT Computers
  1239.      * Description: The TextToSpeech Kit does unrestricted conversion of
  1240.        English text to synthesized speech in real-time. The user has
  1241.        control over speaking rate, median pitch, stereo balance, volume,
  1242.        and intonation type. Text of any length can be spoken, and
  1243.        messages can be queued up, from multiple applications if desired.
  1244.        Real-time controls such as pause, continue, and erase are
  1245.        included. Pronunciations are derived primarily by dictionary
  1246.        look-up. The Main Dictionary has nearly 100,000 hand-edited
  1247.        pronunciations which can be supplemented or overridden with the
  1248.        User and Application dictionaries. A number parser handles numbers
  1249.        in any form. A letter-to-sound knowledge base provides
  1250.        pronunciations for words not in the Main or customized
  1251.        dictionaries. Dictionary search order is under user control.
  1252.        Special modes of text input are available for spelling and
  1253.        emphasis of words or phrases. The actual conversion of text to
  1254.        speech is done by the TextToSpeech Server. The Server runs as an
  1255.        independent task in the background, and can handle up to 50 client
  1256.        connections.
  1257.      * Misc: The TextToSpeech Kit comes in two packages: the Developer
  1258.        Kit and the User Kit. The Developer Kit enables developers to
  1259.        build and test applications which incorporate text-to-speech. It
  1260.        includes the TextToSpeech Server, the TextToSpeech Object, the
  1261.        pronunciation editor PrEditor, several example applications,
  1262.        phonetic fonts, example source code, and developer documentation.
  1263.        The User Kit provides support for applications which incorporate
  1264.        text-to-speech. It is a subset of the Developer Kit.
  1265.      * Hardware: Uses standard NeXT Computer hardware.
  1266.      * Cost:
  1267.           + TextToSpeech User Kit: $175 CDN ($145 US)
  1268.           + TextToSpeech Developer Kit: $350 CDN ($290 US)
  1269.           + Upgrade from User to Developer Kit: $175 CDN ($145 US)
  1270.      * Availability: Trillium Sound Research
  1271.  
  1272.     1500, 112 - 4th Ave. S.W., Calgary, Alberta, Canada, T2P 0H3
  1273.     Tel: (403) 284-9278 Fax: (403) 282-6778
  1274.     Order Desk: 1-800-L-ORATOR (US and Canada only)
  1275.     Email: TTSInfo@trillium.ab.ca
  1276.  
  1277.  
  1278.  
  1279. Orator Text-to-Speech Synthesizer
  1280.  
  1281.      * Platform: SUN SPARC, Decstation 5000. Written in C, and therefore
  1282.        portable to other UNIX platforms. Some successful ports: HP,
  1283.        RS-6000, PC-Unix [Linux].
  1284.      * Description: Sophisticated speech synthesis package. Has text
  1285.        preprocessing (for abbreviations, numbers), acronym rules, and
  1286.        human-like spelling routines. Natural-sounding synthesis based on
  1287.        demisyllable concatenation. Has high accuracy for pronunciation of
  1288.        names of people, places and businesses in America; good accuracy
  1289.        for English text; rules for stress and intonation marking; various
  1290.        methods of user control and customization at most stages of
  1291.        processing.
  1292.        A new version of the ORATOR system is under development. Both
  1293.        ORATOR and this new "ORATOR II" system are capable of general text
  1294.        synthesis. The ORATOR II system has a more natural-sounding voice.
  1295.      * Hardware: Runs on common SPARC or Decstation workstations, using
  1296.        their internal audio output capability. Recommend at least 16M of
  1297.        memory.
  1298.      * WWW: More detailed information plus examples of ORATOR synthesis
  1299.        are available on the ORATOR WWW pages:
  1300.        http://www.bellcore.com/ORATOR/
  1301.      * Misc 1: A free demo cassette is available.
  1302.      * Misc 2: Examples of Orator are also available on the University of
  1303.        Birmingham Speech Synthesis "Museum" WWW site (see Q5.4).
  1304.      * Availability and Pricing: Contact Bellcore's Licensing Office
  1305.        Tel: 1-800-521-CORE (521-2673)
  1306.        Fax: 1-908-336-2559
  1307.        Email: Anthony Lindsey: alin1@panix.com
  1308.        WWW: http://www.bellcore.com/ORATOR/
  1309.  
  1310.  
  1311.  
  1312. PAM - A Text-To-Speech Application
  1313.  
  1314.      * Platform: Windows
  1315.      * Description: PAM is a talking personal assistant and text reader
  1316.        application. It uses the ProVoice TTS package. PAM will verbally
  1317.        advise about appointments and reminder messages at specified times
  1318.        during the day. It can read text files, clipboard text, and text
  1319.        sent in DDE messages. Using the full verbal interface, PAM can be
  1320.        used by visually challenged individuals. Shareware - thirty day
  1321.        free trial.
  1322.      * Requirements: Any Windows sound card, speakers or headphones. Min.
  1323.        memory - 4 megs, 8 megs recommended.
  1324.      * WWW: A more complete description is available on the JTS homepage:
  1325.        http://www.islandnet.com/~tslemko/
  1326.      * Availability: The shareware can be downloaded by ftp from
  1327.        ftp://ftp.islandnet.com/jts/pam_en3c.zip. The file size is approx.
  1328.        1 MByte.
  1329.      * Price: $US40 for the registered version.
  1330.      * Contact: Tom Slemko: e-mail: tslemko@islandnet.com, or,
  1331.        JTS Micro Consulting Ltd
  1332.        10931 Lytton Road, RR#4, Ladysmith, B.C., Canada, V0R 2E0
  1333.  
  1334.  
  1335.  
  1336. ProVerbe Speech Engine from ELAN Informatique
  1337.  
  1338.      * Platform: Windows 3.x, NT, 95, OS/2, Unix Solaris, Unix SCO and
  1339.        hardware
  1340.      * Description: The ProVerbe Speech Engine from ELAN Informatique
  1341.        produces natural sounding speech from written text. Naturalness is
  1342.        achieved by using the TD-PSOLA process from the CNET (France
  1343.        telecom's research lab.) which is based on the concatenation of
  1344.        elementary speech units (including diphones). Supported languages
  1345.        are British English, American English, Russian, German, French and
  1346.        Spanish. For multi-channel applications Elan Informatique also
  1347.        provides hardware platforms.
  1348.        Elan Informatique provides a SDK reference document (sdken.doc:
  1349.        WinWord6 format).
  1350.      * Demo versions: Telephone demonstration: +33-561 17 67 01
  1351.        Sample sound files and demonstration software available.
  1352.        A CD-ROM with all these demonstrations is available by
  1353.        registration.
  1354.      * Contact: Elan Informatique
  1355.        4 rue Jean Rodier, 31400 TOULOUSE FRANCE
  1356.        Contact person: Pierre Delrat
  1357.        Phone: +33-561-36-0777 Fax: +33-61-36-0770
  1358.        BBS: +33-561-36-0788
  1359.        E-mail: sales@elan.fr
  1360.        ftp: ftp://ftp.elan.fr
  1361.        WWW: http://www.elan.fr/
  1362.  
  1363.  
  1364.  
  1365. ProVoice Developer's Speech Toolkit from First Byte
  1366.  
  1367.      * Platform: ProVoice Developer's Toolkits are available for DOS,
  1368.        Windows 3.1, Windows 95, Windows NT, OS/2, and Macintosh.
  1369.      * Description: ProVoice allows programmers to add synthesized speech
  1370.        to their applications. Your program passes text strings to the
  1371.        ProVoice speech engine that translates text into audible speech.
  1372.        Male and/or female "SpeechFonts" are available for many languages;
  1373.        English, French, German, UK British English, Italian, and Spanish.
  1374.  
  1375.        ProVoice converts text to speech in two phases using a set of
  1376.        phonetic translation and pronunciation rules. First, the software
  1377.        analyzes and translates text into "sound descriptors", a phonetic
  1378.        language with pitch, duration, and amplitude codes which are
  1379.        needed to produce stress patterns in phrases and sentences. Rules
  1380.        are used to analyze words, numbers, and punctuation. The second
  1381.        phase converts the intermediate phonetic language in speech
  1382.        signals; algorithms drive distinct speech signals into smooth
  1383.        flowing, continuous, clear speech. Real time synchronization of
  1384.        mouth movement and word boundaries allows animation of a graphical
  1385.        talking character, or highlighting of displayed text as it is
  1386.        spoken.
  1387.        Necessary tools and examples are provided for programmers to
  1388.        manipulate the ProVoice speech technology; including installation
  1389.        instructions, extensive samples programs, and complete
  1390.        documentation. In addition, sample code is provided on disk to
  1391.        illustrate speech programming techniques.
  1392.      * Note 1: First Byte will perform custom work for embedded systems.
  1393.      * Note 2: ProVoice Windows includes support for the Microsoft SAPI.
  1394.        It will speak through any Windows-supported wave audio device.
  1395.      * Note 3: Distribution of ProVoice for commercial use is subject to
  1396.        execution of a Commercial Product Distribution License Agreement.
  1397.      * WWW: For more detailed information and examples go to the First
  1398.        Byte WWW page: http://www.firstbyte.davd.com/
  1399.      * See also: Monologue for Windows from First Byte
  1400.      * Price and Availability: Contact First Byte
  1401.      * Contact: First Byte
  1402.        19840 Pioneer Ave., Torrance, CA 90503
  1403.        Ph: 310-793-0610, Fax: 310-793-0611
  1404.        Email: info@firstbyte.davd.com
  1405.        WWW: http://www.firstbyte.davd.com/
  1406.  
  1407.  
  1408.  
  1409. RC Systems V8600/V8601 Text to Speech synthesizers
  1410.  
  1411.      * Platform 1: IBM PC: ISA card.
  1412.      * Platform 2: Interface to PC/104 standard microcontrollers.
  1413.      * Platform 3: Standalone (or embedded) hardware thru RS232 or
  1414.        parallel printer port or processor bus.
  1415.      * Description: Converts plain ASCII text to speech. Programmable
  1416.        voices, pitch rate, volume, etc. Built-in DTMF and tone
  1417.        generators.
  1418.      * Price: $151-$299 US (qty 1)
  1419.      * Contact: RC Systems
  1420.  
  1421.     1609 England Avenue, Everett, WA 98203, USA
  1422.     Ph: (206) 355-3800 Fax: (206) 355-1098
  1423.     Europe: +44181 539-0285
  1424.  
  1425.  
  1426.  
  1427. rsynth
  1428.  
  1429.      * Platform: Various (including Solaris2.3, SunOS4.1.3, HPUX, SGI
  1430.        Irix4.x, Linux)
  1431.      * Description: Public domain text-to-speech systm assembled from a
  1432.        variety of sources. It supports CMU and BEEP format dictionaries
  1433.        (as described in Q1.10) and now utilises stress marks in the
  1434.        dictionary in synthesising intonation.
  1435.      * Price: Free
  1436.      * Misc: Axel Belinfante has implemented a WWW rsynth demo:
  1437.        http://wwwtios.cs.utwente.nl/say.
  1438.      * Availability: by anonymous ftp from
  1439.  
  1440.                 ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/synthesis/rsy
  1441.                 nth-2.0.tar.Z 
  1442.  
  1443.                 ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/synthesis/rsy
  1444.                 nth-2.0.tar.gz 
  1445.  
  1446.  
  1447.  
  1448. SENSYN speech synthesizer
  1449.  
  1450.      * Platform: PC/DOS/Windows, Macintosh, Sun, and NeXT
  1451.      * Rough Cost: $300
  1452.      * Description: This formant synthesizer produces speech waveform
  1453.        files based on the (Klatt) KLSYN88 synthesizer. It is intended for
  1454.        laboratory and research use. Note that this is NOT a
  1455.        text-to-speech synthesizer, but creates speech sounds based upon a
  1456.        large number of input variables (formant frequencies, bandwidths,
  1457.        glottal pulse characteristics, etc.) and would be used as part of
  1458.        a TTS system. Includes full source code.
  1459.      * Availability: Sensimetrics Corporation
  1460.        Sidney Street, Cambridge MA 02139.
  1461.        Fax: (617) 225-0470; Tel: (617) 225-2442.
  1462.        Email: sensimetrics@sens.com
  1463.        WWW: http://www.sens.com/
  1464.  
  1465.  
  1466.  
  1467. SGI Developers Toolbox Synthesiser
  1468.  
  1469.      * Platform: SGI
  1470.      * Description: The SGI Developer Toolbox 4.0 CDROM contains a
  1471.        basicpublic domain text-to-speech program in the publics/speak
  1472.        directory. The directory includes man pages and source.
  1473.      * Availability: on the SGI Developer Toolbox 4.0 CDROM
  1474.  
  1475.  
  1476.  
  1477. SIMTEL
  1478.  
  1479.    A wide range of speech related software, sound-blaster software and
  1480.    signal processing software for PCs is available on SimTel and its
  1481.    mirror sites. It can be obtained by ftp from:
  1482.  
  1483.           ftp://ftp.coast.net/SimTel/msdos/voice/
  1484.  
  1485.    and is now on the WWW:
  1486.  
  1487.           http://www.acs.oakland.edu/oak/SimTel/win3/sound.html
  1488.  
  1489.     Voicemaker
  1490.  
  1491.    The archives include the program Voicemaker which synthesises speech
  1492.    from phonemes using "concatenation" of phonemes recorded by the user.
  1493.    Voicemaker is a freeware program. It requires an IBM or compatible,
  1494.    512KB RAM, sound blaster compatible sound card.
  1495.  
  1496.           ftp://ftp.coast.net/SimTel/msdos/voice/vm110.zip
  1497.  
  1498.  
  1499.  
  1500. Sound Bytes DeveloperUs Kit
  1501.  
  1502.      * Platform: Subroutine library for Windows, OS/2 and Macintosh
  1503.      * Hardware: Windows - 16 MHz 80386 (minimum) running Windows 3.1; 4
  1504.        Mb RAM with at least 1.4 Mb RAM free. Disk space 1.4 Mb.
  1505.        OS/2 - 16 MHz 80386 (minimum) running OS/2 2.0 or above; 8 Mb RAM
  1506.        with at least 1.4 Mb RAM free.
  1507.        Mac - Any Mac with at least 2.5 Mb of RAM running 6.0.4 or higher.
  1508.        Telephone compatible. Compatible with commonly used sound cards.
  1509.      * Description: SBDK is a software-only sentence-level synthesizer
  1510.        that converts unrestricted English text (ASCII) into synthesized
  1511.        voice through diphone concatenation. SBDK utlizes parsing to
  1512.        incorporate the intonational and rhythmic patterns of normal
  1513.        speech. The developerUs kit includes two voices, one female and
  1514.        one male. The product has a 55,000-word built-in dictionary and a
  1515.        tool for creating customized user dictionaries. It converts
  1516.        numbers, dates, dollars, phone numbers and times to words, and has
  1517.        a SoundOut facility that provides a choice of pronouncing unknown
  1518.        words phonetically or spelling them out. Developers can vary voice
  1519.        pitch (130-220 Hz) and rate (65-200 wpm), synchronize speech to
  1520.        other events, have multiple channels of speech to the same or
  1521.        different boards, etc. Speech sampling options: 8-bit linear;
  1522.        8-bit companded at 11 kHz (Windows); 8-bit mu-law PCM at 8 or 11
  1523.        kHz; 16-bit linear at 11 kHz.
  1524.      * Cost: Sound Bytes may be licensed for internal use or resale. Site
  1525.        license fee= $3750. Resale or Internal runtime fees= 2% of net
  1526.        sales price per runtime sold, OR $150 per telephone port, OR per
  1527.        unit pricing for internal use determined case-by-case.
  1528.      * Misc: Demo disks are available for Windows and the Mac.
  1529.      * Availability: Natural Speech Technologies, Inc.
  1530.        Ph: (619) 457-2526.
  1531.  
  1532.  
  1533.  
  1534. spchsyn.exe
  1535.  
  1536.      * Platform: DOS
  1537.      * Availability: By anonymous ftp as a self extracting DOS archive.
  1538.        ftp://evans.ee.adfa.oz.au/mirrors/tibbs/applications/spchsyn.exe
  1539.      * Requirements: May require special TI product(s), but all source is
  1540.        there.
  1541.  
  1542.  
  1543.  
  1544. "Speak" - a Text to Speech Program
  1545.  
  1546.      * Platform: Sun SPARC
  1547.      * Description: Text to speech program based on concatenation of
  1548.        pre-recorded speech segments. A function library can be used to
  1549.        integrate speech output into other code.
  1550.      * Hardware: SPARC audio I/O
  1551.      * Availability: by anonymous ftp
  1552.        ftp://wilma.cs.brown.edu/pub/speak.tar.Z
  1553.  
  1554.  
  1555.  
  1556. Speech Manager and PlainTalk
  1557.  
  1558.      * Platform: Macintosh
  1559.      * Description: Apple's text-to-speech system extensions that enable
  1560.        applications to perform text-to-speech conversion. The Speech
  1561.        Manager runs on most Macs, but PlainTalk (and the high quality
  1562.        voices) requires a 68020 Mac or better.
  1563.      * Availability: By anonymous ftp from:
  1564.        ftp://ftp.support.apple.com/pub/apple_sw_updates/US/Macintosh/Syst
  1565.        em/PlainTalk 1.4.1/
  1566.        This directory contains subdirectories for recent versions of
  1567.        PlainTalk. The current release (PlainTalk 1.4.1) contains the
  1568.        English Text-To-Speech with about a dozen voices
  1569.        (English_Text-to-Speech.hqx: 5.3 MByte), Mexican Spanish
  1570.        (Mexican_Spanish_TTS.hqx: 2.8 MByte), and the English Speech
  1571.        Recognition software (English_Speech_Recognition.hqx: 2.3MByte).
  1572.      * Cost: Free
  1573.      * WWW: The latest information is available from Apple's WWW page for
  1574.        speech recognition and synthesis:
  1575.        http://www.speech.apple.com/
  1576.      * Note 1: Check out Kevin Lenzo's list of Macintosh Speech
  1577.        Applications.
  1578.      * Note 2: Joshua Baer (josh@skyweyr.com) runs a mailing list for
  1579.        Plaintalk. For subscription and other information visit the
  1580.        Plaintalk Discussion List Home page
  1581.      * Contact: Apple Computer, Inc.
  1582.        1 Infinite Loop, Cupertino, CA 95014, USA
  1583.        WWW: http://www.speech.apple.com/
  1584.        Email: PlainTalk@atg.apple.com
  1585.  
  1586.  
  1587.  
  1588. Text to phoneme program (1)
  1589.  
  1590.      * Platform: unknown
  1591.      * Description: Text to phoneme program. Based on Naval Research
  1592.        Lab's set of text to phoneme rules.
  1593.      * Availability: by anonymous ftp
  1594.        ftp://shark.cse.fau.edu/pub/src/phon.tar.Z
  1595.  
  1596.  
  1597.  
  1598. Text to phoneme program (2)
  1599.  
  1600.      * Platform: unknown
  1601.      * Description: Text to phoneme program.
  1602.      * Availability: by anonymous ftp
  1603.        ftp://ftp.doc.ic.ac.uk/packages/unix-c/utils/phoneme.c.gz
  1604.  
  1605.  
  1606.  
  1607. Text to phoneme program (3)
  1608.  
  1609.      * Description: A public domain version of the same Naval Research
  1610.        Lab text to phoneme rules.
  1611.      * Availability: By anonymous ftp
  1612.        ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/synthesis/english2phon
  1613.        eme.tar.gz
  1614.  
  1615.  
  1616.  
  1617. Tinytalk
  1618.  
  1619.      * Platform: DOS / Windows???
  1620.      * Description: Shareware package is a speech 'screen reader' which
  1621.        is used by many blind users.
  1622.      * Price: Tinytalk is now $150. There are package deals on Tinytalk
  1623.        with various speech synthesizers.
  1624.      * Availability: Tinytalk is available by anonymous ftp from the
  1625.        following site
  1626.  
  1627.         Files: ttexe167.zip and ttdoc167.zip (executable and
  1628.                 documenation)
  1629.                 ftp://ftp.netcom.com/pub/eb/ebohlman/
  1630.  
  1631.        (Note: it is a busy ftp server.)
  1632.      * Contact: Eric Bohlman
  1633.  
  1634.     OMS Development
  1635.     610-B Forest Ave., Wilmette, IL 60091
  1636.     Ph: (800)831-0272 Fax: 708-251-5793
  1637.     Outside North America: (708)-251-5787
  1638.     Email: ebohlman@netcom.com
  1639.  
  1640.  
  1641.  
  1642. TrueTalk
  1643.  
  1644.      * Platform: Sun Sparcstation 1+/2/LX/5/10/20 with SunOS 4.1.3, or
  1645.        SGI Indy/Indigo/Indigo2 with IRIX 5.2. More platforms in
  1646.        development.
  1647.      * Description: Personal TrueTalk, by Entropic Research Laboratory,
  1648.        Inc., is an all-software Text-to-Speech (TTS) system designed to
  1649.        voice-enable UNIX X-Windows workstations. It combines a graphical
  1650.        interface with a powerful TTS engine based on technology developed
  1651.        by AT&T Bell Laboratories. Features include:
  1652.           + Intelligible, prosodically natural speech.
  1653.           + Text taken from file input, highlighted X selections, the
  1654.             interface scratch pad, other programs connected through a
  1655.             TCP/IP socket, or Tcl/Tk applications via the Tk "send"
  1656.             mechanism.
  1657.           + Stop, pause and resume while speech is in progress.
  1658.           + Visual indication of corresponding text position when paused.
  1659.           + Nine speaking voices, with Male and Female versions of each
  1660.             voice.
  1661.           + Adjustable speaking rate and volume.
  1662.           + Supports drop-in text filters; "email" and "lively" examples
  1663.             included.
  1664.           + Audio output through workstation headphones or speaker.
  1665.           + Complete on-line documentation, including mouse-activated
  1666.             help windows.
  1667.      * Misc: A more detailed description of TrueTalk is available on the
  1668.        Entropic WWW server: http://www.entropic.com/truetalk.com
  1669.      * Availability: You can obtain Personal TrueTalk through the
  1670.        Internet. For details, see
  1671.  
  1672.                 ftp://ftp.entropic.com/pub/truetalk/README.ptt
  1673.  
  1674.        Personal TrueTalk is available free of charge for evaluation
  1675.        purposes. You can fully-enable your evaluation copy at any time by
  1676.        purchasing a license key from Entropic.
  1677.      * Requirements: 12MB disk space, 8MB process size (24MB system RAM
  1678.        recommended).
  1679.      * Cost: US$495; US$395 academic
  1680.      * Contact: Entropic Research Laboratory, Inc.,
  1681.        Washington, D.C.
  1682.        Voice: 1-800-ENTROPIC (North America), (202) 547 1420
  1683.        Fax: (202) 547-6648
  1684.        Email: truetalk@entropic.com
  1685.        WWW: http://www.entropic.com/
  1686.  
  1687.  
  1688.  
  1689. TruVoice from Centigram
  1690.  
  1691.      * Platform: Windows-NT, Windows 95, Windows 3.1 (limited release),
  1692.        Sun Solaris 2.x
  1693.      * Description: TruVoice., an advanced text-to-speech converter, is
  1694.        available for multiple environments. TruVoice converts text into
  1695.        spoken language. TruVoice adds intelligible, natural-sounding
  1696.        speech to sound enabled platforms.
  1697.           + Small, 1.5MB, memory footprint
  1698.           + Advanced text pre-processing
  1699.           + No vocabulary restrictions
  1700.           + User-definable pronunciation dictionary
  1701.           + Accurately pronounces surnames and place names
  1702.           + Preprocessor provides e-mail and spreadsheet reading
  1703.             capabilities and expands abbreviations.
  1704.           + Multiple languages available: American English, Latin
  1705.             American Spanish, German, French, Italian
  1706.           + Flexible pitch, volume and speech rate
  1707.           + Intonation support for punctuation
  1708.           + Supports navigational capabilities such as, pause, resume and
  1709.             jump forward / jump back with sentence or word boundaries
  1710.        More detailed information is provided in the brochure page on the
  1711.        Centigram WWW site.
  1712.        A demonstration of TruVoice is available on the Centigram WWW
  1713.        pages.
  1714.      * Cost:
  1715.           + Windows versions are $495 for the SDK
  1716.           + Solaris versions are $995
  1717.           + Contact Centigram for other pricing.
  1718.      * Contact: TruVoice Sales
  1719.        Centigram Communications Corporation
  1720.        91 East Tasman Drive, San Jose, CA 95134
  1721.        Ph: (408) 944-0250 Fax: (408) 428-3732
  1722.        Demo: 800-746 1632
  1723.        Email: webmaster@centigram.com
  1724.        WWW: http://www.centigram.com/
  1725.  
  1726.  
  1727.  
  1728. WinSpeech
  1729.  
  1730.      * Platform: Windows
  1731.      * Description: WinSpeech is a text-to-speech application that reads
  1732.        text and produces speech to the audio output. Features basic text
  1733.        editing tools, talk from editing window, DDE server allows other
  1734.        Windows applications to send text for talking, coach mode for
  1735.        providing audio instructions throughout the program, dictionary
  1736.        editing tools for customizing pronunciation.
  1737.        WSPLIB text-to-speech DLL is a speech functions library for
  1738.        developers. More information available by email.
  1739.      * Requirements: System requirements: IBM PC or compatible computer
  1740.        with Windows 3.1 or higher. Sound card is recommended but not
  1741.        required.
  1742.      * Availability: Freeware available through the PC WholeWare WWW
  1743.        page.
  1744.      * Contact: PC WholeWare
  1745.        33 Justin Street, Lexington, MA 02173, U.S.A.
  1746.        Email: info@pcww.com
  1747.        WWW: http://www.pcww.com/index.html
  1748.  
  1749.  
  1750.  
  1751. WreadFiles: File reader for Commodore Amiga
  1752.  
  1753.      * Platform: Commodore Amiga
  1754.      * Description: WreadFiles is a vocal text file reader program for
  1755.        use on the Commodore Amiga. The text is printed to the screen and
  1756.        spoken. Features include:
  1757.           + Text is read in sentences rather than lines.
  1758.           + Dynamic Speech Correction on over 4000 word or word
  1759.             fragments.
  1760.           + Pronunciations for many place names, personal names, foreign
  1761.             names, foreign expressions and abbreviations.
  1762.           + Run from Workbench or CLI.
  1763.           + Used with A1000 (OS 1.3), A3000 (OS 2.04-2.1), and A4000 (OS
  1764.             3.0)
  1765.      * Requirements: Standard Amiga Translator.library and
  1766.        Narrator.device required. 2.04 versions recommended. 1 Meg or more
  1767.        ram recommended. External speakers required.
  1768.      * Availability: No fee requested for non-commercial use. From:
  1769.           + GEnie: Page 555,3 File Number 24627
  1770.           + Aminet
  1771.             ftp://ftp.wustl.edu/pub/aminet/util/misc/WreadFiles47.lha
  1772.      * Contact: Written by Michael L. Barlow
  1773.        Email: M.Barlow1@GEnie.geis.com or mbarlow@pacific.telebyte.com or
  1774.        MikeB@cuix.pscu.com
  1775.  
  1776.  
  1777.  
  1778. ZMD Speech Synthesis
  1779.  
  1780.   "Speaky" Speech Synthesis from ZMD
  1781.  
  1782.      * Platform: DSP solution for platform independent speech synthesis
  1783.        implementation
  1784.      * Description: "Speaky" provides German speech synthesis system in a
  1785.        DSP solution. It includes pre-processing of input ASCII text with
  1786.        unlimited vocabulary, both parametric and non-parametric speech
  1787.        synthesis algorithms, and prosody modelling. More detailed
  1788.        information and audio samples can be found at the ZMD WWW Site.
  1789.      * Contact: Zentrum Mikroelektronik Dresden GmbH
  1790.        Grenzstrasse 28, D-01109 Dresden, Germany
  1791.        Ph: +49-351-8822-306, Fax: +49-351-8822-337
  1792.        Email: assp@zmd-gmbh.de
  1793.        WWW: http://www.zmd-gmbh.de/
  1794.  
  1795.   ZMD PCMCIA Speech Synthesis Card
  1796.  
  1797.      * Platform: MS-DOS, Windows
  1798.      * Description: Complete text-to-speech synthesis system for the
  1799.        German language with unlimited vocabulary using VOICE Processor
  1800.        "Speaky". The required pre-processing of the input ASCII text is
  1801.        performed by a software programm that is downloaded automatically
  1802.        from the PCMCIA Speech Synthesis Card during the card's
  1803.        initialising routine. Headphone or active loudspeaker can be
  1804.        connected directly for signal output. More detailed information
  1805.        and audio samples can be found at the ZMD WWW Site.
  1806.      * Requirements: PC Card slot, Card & Socket Services Software
  1807.      * Contact: Zentrum Mikroelektronik Dresden GmbH
  1808.        Grenzstrasse 28, D-01109 Dresden, Germany
  1809.        Ph: +49-351-8822-306, Fax: +49-351-8822-337
  1810.        Email: assp@zmd-gmbh.de
  1811.        WWW: http://www.zmd-gmbh.de/
  1812.  
  1813.  
  1814. ___________________________________________________________________________
  1815.  
  1816.                              Speech Recognition
  1817.  
  1818.                          comp.speech FAQ Section 6
  1819.  
  1820.           * SpeechLinks: Speech Recognition
  1821.           * Q6.1: What is speech recognition?
  1822.           * Q6.2: How is speech recognition performed?
  1823.           * Q6.3: How can I build a simple speech recogniser?
  1824.           * Q6.4: References & books on speech recognition
  1825.           * Q6.5: Speech Recognition Hardware/Software
  1826.           * Q6.6: Speaker Recognition (Verification and Identification)
  1827.           * Q6.7: Integrated Speech Products
  1828.  
  1829.  
  1830. ___________________________________________________________________________
  1831.  
  1832.                    Q6.1: What is speech recognition?
  1833.  
  1834. Automatic Speech Recognition
  1835.  
  1836.    Automatic speech recognition is the process by which a computer maps
  1837.    an acoustic speech signal to text.
  1838.  
  1839.    Automatic speech understanding is the process by which a computer maps
  1840.    an acoustic speech signal to some form of abstract meaning of the
  1841.    speech.
  1842.  
  1843. What does speaker dependent / adaptive / independent mean?
  1844.  
  1845.    A speaker dependent system is developed to operate for a single
  1846.    speaker. These systems are usually easier to develop, cheaper to buy
  1847.    and more accurate, but not as flexible as speaker adaptive or speaker
  1848.    independent systems.
  1849.  
  1850.    A speaker independent system is developed to operate for any speaker
  1851.    of a particular type (e.g. American English). These systems are the
  1852.    most difficult to develop, most expensive and accuracy is lower than
  1853.    speaker dependent systems. However, they are more flexible.
  1854.  
  1855.    A speaker adaptive system is developed to adapt its operation to the
  1856.    characteristics of new speakers. It's difficulty lies somewhere
  1857.    between speaker independent and speaker dependent systems.
  1858.  
  1859. What does small/medium/large/very-large vocabulary mean?
  1860.  
  1861.    The size of vocabulary of a speech recognition system affects the
  1862.    complexity, processing requirements and the accuracy of the system.
  1863.    Some applications only require a few words (e.g. numbers only), others
  1864.    require very large dictionaries (e.g. dictation machines). There are
  1865.    no established definitions, however, try
  1866.  
  1867.      * small vocabulary - tens of words
  1868.      * medium vocabulary - hundreds of words
  1869.      * large vocabulary - thousands of words
  1870.      * very-large vocabulary - tens of thousands of words.
  1871.  
  1872. What does continuous speech or isolated-word mean?
  1873.  
  1874.    An isolated-word system operates on single words at a time - requiring
  1875.    a pause between saying each word. This is the simplest form of
  1876.    recognition to perform because the end points are easier to find and
  1877.    the pronunciation of a word tends not affect others. Thus, because the
  1878.    occurrences of words are more consistent they are easier to recognise.
  1879.  
  1880.    A continuous speech system operates on speech in which words are
  1881.    connected together, i.e. not separated by pauses. Continuous speech is
  1882.    more difficult to handle because of a variety of effects. First, it is
  1883.    difficult to find the start and end points of words. Another problem
  1884.    is "coarticulation". The production of each phoneme is affected by the
  1885.    production of surrounding phonemes, and similarly the the start and
  1886.    end of words are affected by the preceding and following words. The
  1887.    recognition of continuous speech is also affected by the rate of
  1888.    speech (fast speech tends to be harder).
  1889.  
  1890.  
  1891. ___________________________________________________________________________
  1892.  
  1893.                Q6.2: How is speech recognition performed?
  1894.  
  1895.    A wide variety of techniques are used to perform speech recognition.
  1896.    There are many types of speech recognition. There are many levels of
  1897.    speech recognition / analysis / understanding.
  1898.  
  1899.    Typically speech recognition starts with the digital sampling of
  1900.    speech. The next stage is acoustic signal processing. Most techniques
  1901.    include spectral analysis; e.g. LPC analysis (Linear Predictive
  1902.    Coding), MFCC (Mel Frequency Cepstral Coefficients), cochlea modelling
  1903.    and many more.
  1904.  
  1905.    The next stage is recognition of phonemes, groups of phonemes and
  1906.    words. This stage can be achieved by many processes such as DTW
  1907.    (Dynamic Time Warping), HMM (hidden Markov modelling), NNs (Neural
  1908.    Networks), expert systems and combinations of techniques. HMM-based
  1909.    systems are currently the most commonly used and most successful
  1910.    approach.
  1911.  
  1912.    Most systems utilise some knowledge of the language to aid the
  1913.    recognition process.
  1914.  
  1915.    Some systems try to "understand" speech. That is, they try to convert
  1916.    the words into a representation of what the speaker intended to mean
  1917.    or achieve by what they said.
  1918.  
  1919.  
  1920. ___________________________________________________________________________
  1921.  
  1922.            Q6.3: How can I build a simple speech recogniser?
  1923.  
  1924.     QUICKY RECOGNIZER sketch:
  1925.  
  1926.    Doug Danforth provides a detailed account in article 253 in the
  1927.    comp.speech archives. A summary is provided below. It is also
  1928.    available by anonymous ftp
  1929.  
  1930.           ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/info/DIY_SpeechReco
  1931.           gnition
  1932.  
  1933.    This is a simple recognizer that should give you 85%+ recognition
  1934.    accuracy. The accuracy is a function of the words you have in your
  1935.    vocabulary. Long distinct words are easy. Short similar words are
  1936.    hard. You can get 98+% on the digits with this recognizer.
  1937.  
  1938.    Overview:
  1939.  
  1940.      * Find the begining and end of the utterance.
  1941.      * Filter the raw signal into frequency bands.
  1942.      * Cut the utterance into a fixed number of segments.
  1943.      * Average data for each band in each segment.
  1944.      * Store this pattern with its name.
  1945.      * Collect training set of about 3 repetitions of each pattern
  1946.        (word).
  1947.      * Recognize unknown by comparing its pattern against all patterns in
  1948.        the training set and returning the name of the pattern closest to
  1949.        the unknown.
  1950.  
  1951.    Many variations upon the theme can be made to improve the performance.
  1952.    Try different filtering of the raw signal and different processing
  1953.    methods.
  1954.  
  1955.     Public Domain Recognition Software
  1956.  
  1957.    Q6.5 contains information on public domain speech recognition software
  1958.    including: Lotec and Myers' Hidden Markov Model software.
  1959.  
  1960.     Discrete Hidden Markov Model Demonstration Software
  1961.  
  1962.    Hidden Markov Models (HMMs) are widely used in speech recognition
  1963.    systems. Joe Picone has put together some demonstration software for
  1964.    basic discrete HMMs including Viterbi and Baum-Welch training and
  1965.    evaluation, random sequence generation (generating data from a model),
  1966.    and model updating (useful for incremental training). There is a
  1967.    simple demo program that supports all of these modes from command line
  1968.    arguments. This allows experiments to test the classic coin-toss
  1969.    examples commonly described in textbooks. The code closely parallels
  1970.    the following textbook:
  1971.  
  1972.      * J.R. Deller, Jr., J.G. Proakis, and J.H.L. Hansen, Discrete-Time
  1973.        Processing of Speech Signals, MacMillan, 1993, ISBN:
  1974.        0-02-328301-7.
  1975.  
  1976.    The code is written in C++ and is intended to facilitate learning and
  1977.    understanding of the algorithms. The code is available on the ISIP web
  1978.    site:
  1979.    http://www.isip.msstate.edu/software/
  1980.  
  1981.    Lecture notes corresponding to the examples are also available:
  1982.    http://www.isip.msstate.edu/publications/1996/speech_recognition_short
  1983.    _course
  1984.  
  1985.  
  1986. ___________________________________________________________________________
  1987.  
  1988.              Q6.4: References & books on speech recognition
  1989.  
  1990.      * Product Reviews and Comparisons
  1991.      * Using Speech Recognition: Health Issues
  1992.      * On the WWW
  1993.      * Technology: General and Introductory
  1994.      * Technical
  1995.      * Course Notes
  1996.      * Bibliographies and Reference Lists
  1997.  
  1998.   Product Reviews and Comparisons
  1999.  
  2000.      * "Talk Show", Wayne Rash Jr., PC Magazine (USA), Dec 20, 1994.
  2001.      * "Seybold Report on Desktop Publishing" published a nine-page,
  2002.        head-to-head comparison of Dragon's DOS software with IBM's OS/2
  2003.        software. March 7, 1994; Volume 8, Number 7; Pages 3-11;
  2004.        ISSN:0889-9762; Seybold Publications, P.O. Box 644, Media, PA
  2005.        19063 USA, phone (610) 565-2480.
  2006.      * McGraw-Hill Inc.'s "BYTE, the Magazine of Technology Integration,"
  2007.        published a two-page review of IBM's Personal Dictation System
  2008.        software. May 1994; Volume ?, Number ?; Pages 145-146;
  2009.        ISSN:0360-5280; Editorial, Executive, and Circulation address: One
  2010.        Phoenix Mill Lane, Peterborough, NH 03458 USA, phone ?
  2011.  
  2012.   Using Speech Recognition: Health Issues
  2013.  
  2014.      * The National Center for Voice and Speech provides some basic
  2015.        information on preserving "Vocal Health" on their WWW site:
  2016.        http://www.shc.uiowa.edu/hygiene/home.html
  2017.      * Voice Users Mailing List: detail in Q1.4.html of the FAQ.
  2018.      * Typing Injury FAQ: http://www.cs.princeton.edu:80/~dwallach/tifaq/
  2019.        has a range of information on Typing Injuries, avoiding them,
  2020.        alternatives and more.
  2021.      * Typing Injuries Page:
  2022.        http://alumni.caltech.edu/~dank/typing-archive.html has links to
  2023.        dozens of useful resources.
  2024.      * Voice Problems -- Prevention and Correction: advice on preserving
  2025.        your voice with specific hints for using speech recognition.
  2026.        ftp://ftp.csua.berkeley.edu/pub/typing-injury/voice-problems
  2027.      * " Talking to a PC May Be Hazard To Your Throat", by Julie Chao in
  2028.        the Wall Street Journal.
  2029.      * " Talking to Computers Has its Hazards", by Gordon Arnaut in The
  2030.        Globe and Mail
  2031.  
  2032.   On the WWW
  2033.  
  2034.      * Survey of the State of the Art in Human Language Technology:
  2035.        Report edited by Ronald A. Cole et. al. with a section on Spoken
  2036.        Input Technologies.
  2037.        http://www.cse.ogi.edu/CSLU/HLTsurvey/ch1node2.html
  2038.  
  2039.   Technology: General and Introductory
  2040.  
  2041.    Some general introduction books on speech recognition technology:
  2042.  
  2043.      * Fundamentals of Speech Recognition; Lawrence Rabiner & Biing-Hwang
  2044.        Juang Englewood Cliffs NJ: PTR Prentice Hall (Signal Processing
  2045.        Series), c1993, ISBN 0-13-015157-2
  2046.      * Speech recognition by machine; W.A. Ainsworth London: Peregrinus
  2047.        for the Institution of Electrical Engineers, c1988
  2048.      * Speech synthesis and recognition; J.N. Holmes Wokingham: Van
  2049.        Nostrand Reinhold, c1988
  2050.      * Speech Communication: Human and Machine, Douglas O'Shaughnessy;
  2051.        Addison Wesley series in Electrical Engineering: Digital Signal
  2052.        Processing, 1987.
  2053.      * Electronic speech recognition: techniques, technology and
  2054.        applications, edited by Geoff Bristow, London: Collins, 1986
  2055.      * Readings in Speech Recognition; edited by Alex Waibel & Kai-Fu
  2056.        Lee. San Mateo: Morgan Kaufmann, c1990
  2057.  
  2058.   Technical
  2059.  
  2060.      * Hidden Markov models for speech recognition; X.D. Huang, Y. Ariki,
  2061.        M.A. Jack. Edinburgh: Edinburgh University Press, c1990
  2062.      * Speech Recognition: The Complete Practical Reference Guide; T.
  2063.        Schalk, P. J. Foster: Telecom Library Inc, New York; ISBN
  2064.        O-9366648-39-2; 377 pages; paperback only. Covers speech
  2065.        recognition in a telephony environment and wish to use call
  2066.        processing hardware based in PCs. It is written using Dialogic
  2067.        hardware as the example for the hardware.
  2068.      * Automatic speech recognition: the development of the SPHINX
  2069.        system; by Kai-Fu Lee; Boston; London: Kluwer Academic, c1989
  2070.      * An Introduction to the Application of the Theory of Probabilistic
  2071.        Functions of a Markov Process to Automatic Speech Recognition, S.
  2072.        E. Levinson, L. R. Rabiner and M. M. Sondhi; in Bell Syst. Tech.
  2073.        Jnl. v62(4), pp1035--1074, April 1983
  2074.      * Review of Neural Networks for Speech Recognition, R. P. Lippmann;
  2075.        in Neural Computation, v1(1), pp 1-38, 1989.
  2076.      * Automatic Speech and Speaker Recognition: Advanced Topics, C.H.
  2077.        Lee, F.K. Soong and K.K. Paliwal (Eds.), Kluwer, Boston, 1996.
  2078.  
  2079.   Course Notes
  2080.  
  2081.      * Joseph Picone of the Institute for Signal and Information
  2082.        Processing (ISIP) at Mississippi State University has put the
  2083.        course notes for "Fundamentals of Speech Recognition" on the WWW.
  2084.        The course covers background probability and phonetics/acoustics,
  2085.        speech signal analysis, dynamic programming, dynamic time warping,
  2086.        hidden Markov modelling, language modelling, neural networks, etc.
  2087.        The WWW sites provides the syllabus and lecture notes.
  2088.        WWW: http://www.isip.msstate.edu/publications/1996/ee_8993/
  2089.  
  2090.   Bibliographies and Reference Lists
  2091.  
  2092.      * WWW searchable online-bibiliography for Phonetics and Speech
  2093.        Technology with more than 8000 entries. Provided by Institut fur
  2094.        Phonetik at Johann Wolfgang Goethe-Universitat Frankfurt.
  2095.        http://www.uni-frankfurt.de/~ifb/bib_engl.html
  2096.      * Computational Speech Processing: Speech Analysis, Recognition,
  2097.        Understanding, Compression, Transmission, Coding, Synthesis ; Text
  2098.        to Speech Systems, Speech to Tactile Displays, Speaker
  2099.        Identification, Prosody Processing : BIBLIOGRAPHY, by Conrad F.
  2100.        Sabourin, 1994, 2 volumes, 1187p, ISBN 2-921173-21-2, INFOLINGUA
  2101.        inc., P.O. Box 187 Snowdon, Montreal, H3X 3T4, Canada.
  2102.        See also: http://gomer.mlink.net/infolingua.html
  2103.  
  2104.  
  2105. ___________________________________________________________________________
  2106.  
  2107.              Q6.5: Speech Recognition Hardware and Software
  2108.  
  2109.    The number of speech recognition packages, and the information about
  2110.    the software is changing rapidly. Any help with keeping this
  2111.    information up to date will be appreciated.
  2112.  
  2113.      * Products in the FAQ
  2114.      * Speech Recognition Processors (ICs)
  2115.      * Recognition Information on the WWW
  2116.      * Speech Recognition Resellers and Value-Add
  2117.  
  2118.   In the FAQ:
  2119.  
  2120.    The following speech recognition software/hardware is described in the
  2121.    comp.speech FAQ.
  2122.  
  2123.    _Apple Macintosh_
  2124.           * Digital Dreams Speech Recognition Plug-Ins 
  2125.           * Dragon Dictation Products 
  2126.           * Macintosh Speech Recognition Manager 
  2127.           * PowerSecretary 
  2128.  
  2129.    _Windows (including 95, NT, 3.1)_
  2130.           * AT&T Watson Speech Recognition 
  2131.           * Cambridge Voice for Windows 
  2132.           * CustomVoice and CustomTelephone: A&G Graphics Interface Inc. 
  2133.           * DragonDictate for Windows 
  2134.           * Dragon Dictation Products 
  2135.           * Dragon Developer Tools 
  2136.           * Ficomp Interpreter 6000 
  2137.           * IBM VoiceType Dictation and Control 
  2138.           * IN CUBE 
  2139.           * Kurzweil Speech Recognition (2 products) 
  2140.           * Lernout & Hauspie ASR SDK 
  2141.           * Listen for Windows 2.0 from Verbex Voice Systems 
  2142.           * Microsoft Speech Recognition 
  2143.           * NCC Dictate 
  2144.           * Phonetic Engine 500 (PE500) from Speech Systems, Inc. 
  2145.           * Philips Speech Recognition (2 products) 
  2146.           * ProNotes Voice Tools 
  2147.           * PureSpeech 
  2148.           * smARTspeak from Advanced Recognition Technologies, Inc. 
  2149.           * Visual Voice from Stylus Innovation 
  2150.           * VoiceAssist for Windows from Creative Labs, Inc. 
  2151.           * VoiceServer for Windows 
  2152.           * Whisper 
  2153.           * WildCard Speech Products 
  2154.  
  2155.    _DOS_
  2156.           * DATAVOX - French 
  2157.           * Dragon Developer Tools 
  2158.           * Ficomp Interpreter 6000 
  2159.           * Jialong He's Speech Recognition Research Tool 
  2160.           * smARTspeak from Advanced Recognition Technologies, Inc. 
  2161.           * Votan VPC2100 Voice Card and VSP 1010 Speech Processor 
  2162.  
  2163.    _OS/2_
  2164.           * IBM VoiceType Dictation and Control 
  2165.  
  2166.    _Unix_
  2167.           * AbbotDemo 
  2168.           * BBN Hark Telephony Recognizer 
  2169.           * EARS: Single Word Recognition Package 
  2170.           * Ficomp Interpreter 6000 
  2171.           * Hidden Markov Model Toolkit (HTK) from Entropic 
  2172.           * IN CUBE 
  2173.           * Jialong He's Speech Recognition Research Tool 
  2174.           * Lotec Speech Recognition Package 
  2175.           * Myers' Hidden Markov Model software 
  2176.           * NICO Artificial Neural Network Toolkit 
  2177.           * Nuance Speech Recognition System 
  2178.           * PureSpeech 
  2179.           * recnet 
  2180.  
  2181.    _Integrated Circuits and Dedicated Hardware_
  2182.           * HM2007 - Speech Recognition Chip 
  2183.           * OKI VRP6679 - Speech Recognition Chip 
  2184.           * Sensory Inc. Integrated Circuits 
  2185.           * Speech Commander - Verbex Voice Systems 
  2186.           * Voice Control Systems Recognition 
  2187.           * VCS 2030 & 2060 Voice Dialer 
  2188.  
  2189.    _Other Platforms_
  2190.           * Simon Says (NeXT) 
  2191.           * Voice Command Line Interface (Amiga) 
  2192.           * Visus SpeechKit 
  2193.  
  2194.    _Unknown_
  2195.           * Berkeley Restaurant Project (BeRP) 
  2196.           * Lernout & Hauspie ASR (3 products) 
  2197.           * Voice-Trek 2.0 
  2198.           * Voicetek Corp. 
  2199.           * Voice Processing Corporation Speech Recognition Product Line 
  2200.  
  2201.   Speech Recognition Processors (ICs)
  2202.  
  2203.    Jean-Pierre Lereboullet has put together a detailed list of Voice
  2204.    Recognition Processors which covers about 15 ICs and pieces of related
  2205.    hardware (including D6106, HM2007, MSM6679, RSC-164, TC8860F/64F/65F,
  2206.    5A128).
  2207.    The document is available on the comp.speech ftp server:
  2208.    ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/info/VoiceRecognitionProce
  2209.    ssors
  2210.  
  2211.   Recognition Information on the WWW
  2212.  
  2213.    In addition to the entries on speech recognition in this FAQ, the
  2214.    following WWW sites provide information on speech recognition:
  2215.  
  2216.     Commercial Speech Recognition: Russ Wilcox of PureSpeech Inc.
  2217.  
  2218.           http://www.tiac.net/users/rwilcox/speech.html
  2219.  
  2220.     Macintosh Speech Resources and Apps
  2221.           http://www.cs.cmu.edu/~lenzo/mac_speech_apps.html
  2222.  
  2223.     Speech Recognition Information: 21st Century Eloquence
  2224.           http://www.voicerecognition.com/
  2225.  
  2226.     Applied Speech Technology Laboratory of CLSI at Stanford
  2227.           http://csli-www.stanford.edu/users/bscott/SRTech.html
  2228.  
  2229.     Speech Toys Speech Recognition Page
  2230.           http://www.speechtoys.com/spchtoys/sprec.html
  2231.  
  2232.     Speech recognition product lists: postings to comp.speech
  2233.           ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/info/SpeechRecognit
  2234.           ionProducts
  2235.  
  2236.     Search Alta Vista for Speech Recognition
  2237.  
  2238.     Search Lycos for Speech Recognition
  2239.  
  2240.     Yahoo pages on Speech Recognition
  2241.           http://www.yahoo.com/business/corporations/computers/software/v
  2242.           oice_recognition/ 
  2243.           http://www.yahoo.com/Science/Computer_Science/Artificial_Intell
  2244.           igence/Natural_Language_Processing/Speech_Recognition/ 
  2245.  
  2246.   Speech Recognition Resellers and Value-Added Services
  2247.  
  2248.     1stVoice
  2249.           2470 El Camino Real, Suite 110, Palo Alto CA 94306-1701
  2250.           Ph: 415-857-1320, Fax: 415-856-6996
  2251.           WWW: http://www.1stvoice.com/
  2252.           Email: mail@1stvoice.com
  2253.           Dragon Dictation Products
  2254.  
  2255.     21st Century Eloquence
  2256.           325-A Royal Poinciana Plaza, Palm Beach, Florida 33480, USA
  2257.           Ph: 800-245-2133, Fax: 407-835-4901
  2258.           WWW: http://www.voicerecognition.com/
  2259.           Kurzweil, IBM VoiceType, Dragon, Kolvox
  2260.  
  2261.     Auscript (Australia)
  2262.           Suite 2, Level 3, 60-70 Elizabeth St, Sydney, NSW 2000,
  2263.           Australia
  2264.           Ph: +61-2-238 6565, Fax: +61-2-238 6566
  2265.           WWW: http://www.auscript.com.au/
  2266.           Dragon Systems
  2267.  
  2268.     BRITE
  2269.           WWW: http://www.brite.com/
  2270.           Computer Telephony Integration & Interactive Voice Response
  2271.  
  2272.     DAX Systems, Inc.
  2273.           30 Chapin Road, Unit 1201, P.O. Box 778, Pine Brook, NJ/USA
  2274.           07058
  2275.           Ph: +1-201-227-8111, Fax: +1-201-227-8197
  2276.           Email: info@daxsystems.com
  2277.           WWW: http://www.daxsystems.com/
  2278.           Computer Telephony and Integrated Voice Response
  2279.  
  2280.     HealthCare Resources
  2281.           1444 Aviation Blvd, #103, Redondo Beach, CA 90278, USA
  2282.           Ph: +1-310-937-5156, Fax: +1-310-937-5159
  2283.           EMail: Scalif@AOL.COM
  2284.           Power Secretary & Dragon Dictate. Specializing in:
  2285.           Medical/Dental, Motion Picture Industry, Carpal Tunnel related
  2286.           and Disabled Persons.
  2287.  
  2288.     O'Brien Resources
  2289.           Ph: (540) 347-4988 (Address unknown)
  2290.           Email: obrien@crosslink.net
  2291.           WWW: http://www.crosslink.net/~obrien/
  2292.           Kurzweil Voice Recognition Products
  2293.  
  2294.     SCI VoiceAutomated
  2295.           215 1/2 Main Street, Huntington Beach, CA 92648, USA
  2296.           Ph: 800-597-6600, Ph: +1-714-969-7632, Fax: +1-714-969-0122
  2297.           http://www.voiceautomated.com/
  2298.           IBM VoiceType, Kurzweil Voice, DragonDictate and Philips
  2299.           speech.
  2300.  
  2301.     Synapse
  2302.           3095 Kerner Blvd., Suite S, San Rafael, CA 94901, USA
  2303.           Ph: (415) 455-9700, Fax: (415) 455-9801
  2304.           Email: SYNAPSE_ADAPTIVE@msn.com
  2305.           WWW: http://www.synapseadaptive.com/
  2306.           Dragon Systems, Kurzweil and IBM products.
  2307.  
  2308.     Talk Technology
  2309.           Ph: 1-800-270-1672, Fax: 1-516-360-1213
  2310.           Email: info@talktechnology.com
  2311.           http://www.talktechnology.com/
  2312.  
  2313.     Talk Technology, Inc.
  2314.           Tel: +1-718-745-9199, Fax: +1-718-499-6480
  2315.           Email: mnm@pipeline.com
  2316.           WWW: http://www.usbusiness.com/talk/
  2317.           Dragon Dictate and portable (notebook) solutions
  2318.  
  2319.     ToppCopy Telecom
  2320.           Email: ffalzett@toppcopy.com
  2321.           WWW: http://www.toppcopy.com/
  2322.           Philips Digital Dictation
  2323.  
  2324.     VoiceWare Systems
  2325.           230 California Street, Suite 410, San Francisco, CA 94111
  2326.           Ph: (415) 433-2001, Fax: (415) 433-6909
  2327.           Email: info@talk2type.com
  2328.           WWW: http://www.talk2type.com/home.htm
  2329.           IBM, Dragon Systems, Kurzweil Applied Intelligence, WildCard
  2330.           Technologies
  2331.  
  2332.     WorkLink
  2333.           A.D.A. Solutions by WorkLink
  2334.           2566-A Telegraph Avenue, Berkeley, California 94704 USA
  2335.           Ph: 510-848-8363, Fax:510-848-7322
  2336.           WWW: http://www.worklink.net/
  2337.           Email: wayne@worklink.net
  2338.           Dragon Dictation Products
  2339.  
  2340.  
  2341.  
  2342. AbbotDemo
  2343.  
  2344.      * Platform: SunOS4, IRIX, Linux, HU-UX
  2345.      * Description: Large vocabulary, speaker independent, continuous
  2346.        automatic speech recognition system. Uses recurrent neural
  2347.        networks and hidden Markov models with a 5,000 word vocabulary
  2348.        upgradable) and a trigram word grammar. Includes a front end for
  2349.        waveform capture and display (including spectrogram) and a
  2350.        graphical display of the phoneme representation as well as a
  2351.        rewriting display of the best guess word sequence.
  2352.      * Requirements: UN*X, X, 8 Mbyte free RAM, 486DX or faster
  2353.        processor, 16 bit soundcard, reasonable quality microphone and a
  2354.        copy of the Wall Street Journal newspaper.
  2355.      * Price: Free for non-commercial use
  2356.      * Availability: By anonymous ftp from
  2357.  
  2358.         ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/recognition/AbbotDemo
  2359.  
  2360.      * Note 1: This is not a complete system for dictation.
  2361.      * Note 2: At present there are no sources with this distribution.
  2362.        For sources for an earlier version see the recnet entry.
  2363.      * Note 3: Not supported.
  2364.      * Contact: AbbotDemo@compute.demon.co.uk
  2365.        Tony Robinson
  2366.        Cambridge University Engineering Department
  2367.        Trumpington Street, Cambridge, CB2 1PZ, UK
  2368.        Tel: +44-1223-332815 Fax: +44-1223-332662
  2369.  
  2370.  
  2371.  
  2372. AT&T Watson Speech Recognition
  2373.  
  2374.      * Platform: Windows 95/NT on a Pentium 75 Mhz or higher
  2375.      * Description: Watson is a software implementation of AT&T Bell
  2376.        Laboratories voice processing technology. Watson includes BLASR
  2377.        Speech Recognition and FlexTalk speech synthesis (see Q5.5). It
  2378.        requires no special hardware to run other than a standard sound
  2379.        card and/or phone card. Technical details for BLASR Speech
  2380.        Recognition include:
  2381.           + Compliant with Microsoft Speech API and Telephone API
  2382.           + Speaker independent, continuous speech recognition
  2383.           + Fast, run-time vocabulary change
  2384.           + Open mic and telephone line environments
  2385.           + SoundBlaster compatible sound card and drivers required
  2386.           + Subword models and whole-word digit models
  2387.           + Background, silence, and filler/garbage models
  2388.           + 50 word name vocabulary or 100 word phrase real-time
  2389.             recognition with 95% accuracy
  2390.           + Rejection of out-of-vocabulary words
  2391.           + American English only - other languages in development
  2392.           + Barge-in speech begin/end notification - requires hardware
  2393.             echo cancellation
  2394.        The AT&T Advanced Speech Products Group home page provides more
  2395.        detailed information including a Frequently Asked Questions list,
  2396.        information for application developers on the Independent Software
  2397.        Vendor (ISV) Program (including info on the SDK, licensing, and
  2398.        the training program).
  2399.      * Requirements: Uses 2 MB RAM, 10 MB Disk. Requires a Pentium 75 MHz
  2400.        or higher CPU (uses
  2401.      * Cost and Availability: WATSON is a software-based speech platform
  2402.        with a Software Developers Kit (SDK) that allows application
  2403.        developers to use voice processing in their applications. It is
  2404.        not available as a stand-alone product.
  2405.        Licensing information (inc. price) is provided in the AT&T
  2406.        Advanced Speech Products Group home page
  2407.      * See also: Watson FlexTalk speech synthesis in Q5.5, Microsoft
  2408.        Speech API, and Advanced Speech API.
  2409.      * Contact: AT&T Advanced Speech Products Group
  2410.        Suite 700, 44 East Mifflin Street, Madison, WI 53703, USA
  2411.        Ph: 1-800-5-WATSON, Fax: 1-608-259-2269
  2412.        Email: aspg@attmail.com
  2413.        WWW: http://www.att.com/aspg/
  2414.  
  2415.  
  2416.  
  2417. BBN Hark Telephony Recognizer
  2418.  
  2419.      * Platform: Available for Unix-based workstation and PC platforms
  2420.        including IBM RS6000/AIX and Pentium/SCO Unix.
  2421.      * Description: Large vocabulary (2,000+ words), speaker independent,
  2422.        continuous ASR software. Specifically designed for large scale
  2423.        telephony applications. Using a client/server architecture, all
  2424.        features and capabilities are integrated in one software product
  2425.        instead of on separate boards. Very memory efficient, the Hark
  2426.        Telephony Recognizer runs in as little as 2MB of physical memory.
  2427.        Multiple recognizers can be run on a single platform. Uses Hidden
  2428.        Markov Model and phoneme-based BBN recognition algorithms. An API
  2429.        is provided for integration with existing applications. A
  2430.        developer's toolkit is available.
  2431.      * Price and availability: Price varies depending on vocabulary size.
  2432.        Version 3.0 available immediately.
  2433.      * Misc: BBN Hark provides application design and human factors
  2434.        consulting services. Regular monthly training classes on
  2435.        developing speech-enabled applications are held at BBN Hark's
  2436.        Cambridge (Mass) headquarters.
  2437.      * WWW: For additional information see BBN Hark's home page.
  2438.      * Contact: BBN Hark Systems
  2439.        70 Fawcett Street, Cambridge, MA 02138, USA
  2440.        Tel: 617-873-4636 Fax: 617-873-2473
  2441.        WWW: http://www.bbn.com/bbn_hark/HarkHome.html
  2442.  
  2443.  
  2444.  
  2445. Berkeley Restaurant Project (BeRP)
  2446.  
  2447.      * Description: BeRP is a test bed for a speech recognition system
  2448.        being developed by the International Computer Science Institute in
  2449.        Berkeley, CA. BeRP is a medium-vocabulary, speaker-independent
  2450.        spontaneous continuous speech understanding system. BeRP functions
  2451.        as a knowledge consultant whose domain is the restaurants in the
  2452.        city of Berkeley. The system serves as a testbed for several
  2453.        research projects, including robust feature extraction,
  2454.        connectionist phonetic likelihood estimation, automatic induction
  2455.        of multiple pronunciation lexicons, foreign accent detection and
  2456.        modeling, advanced language models, and lip-reading.
  2457.      * Note: As far as I know the BeRP software is in-house software -
  2458.        that is, it is not made available for distribution.
  2459.      * More information: http://www.icsi.berkeley.edu/real/berp.html
  2460.  
  2461.  
  2462.  
  2463. Cambridge Voice for Windows
  2464.  
  2465.      * Platform: Windows
  2466.      * Description: Speaker-independent recognition of continuous speech
  2467.        in real time. Vocabularies can range from small to very large
  2468.        (more than 60,000 word forms). Support is planned for languages
  2469.        including English, Danish, Dutch, French, German, Italian,
  2470.        Norwegian, Spanish, Swedish, and Japanese. The engine complies
  2471.        with the Microsoft Speech API.
  2472.      * Contact: Cambridge Group Research, Ltd.
  2473.        Box 7290, Buffalo Grove, IL 60089
  2474.        Ph: (708) 821-1040, Fax: (708) 821-1041
  2475.        E-mail: 76061.3350@compuserve.com
  2476.  
  2477.  
  2478.  
  2479. CustomVoice and CustomTelephone: A&G Graphics Interface Inc.
  2480.  
  2481.      * Platform: Windows
  2482.      * CustomVoice: Speech recognition custom control for Visual Basic,
  2483.        Visual C++, Borland C++, and other development platforms that
  2484.        support *.VBX. Provides an engine/proprietary independent
  2485.        development platform for speech recognition. Currently supports
  2486.        ICSS, but should soon support other platforms. Includes a grammar
  2487.        debugger and parser APIs to parse spoken speech into useful data
  2488.        types.
  2489.        Requirements: 486/DX or better PC, Windows 3.1 or Windows for
  2490.        Workgroups, 8Mb RAM (minimum), SoundBlaster 16, microphone, and
  2491.        mouse. Supports Visual Basic, Visual C++, Borland C++, and Delphi.
  2492.      * CustomTelephone: Windows-based developers tool that allows
  2493.        programmers to build speech enabled "telephony" applications via
  2494.        standard custom control properties (VBX). It supports IBM
  2495.        VoiceType Application Factory (VTAF), a continuous speech, speaker
  2496.        independent speech recognizer, and supports voice response boards
  2497.        such as Dialogic. Comes with a VB custom control, pre-built
  2498.        grammar sets for common data types, an interactive grammar
  2499.        debugger to identify valid speech patterns, and parser API
  2500.        functions that convert recognized speech into data types supported
  2501.        by VB, C++ and Delphi. Includes sample applications with source
  2502.        code, and VBX, VCL and DLLs. Bundled with speech recognition
  2503.        engines.
  2504.        Requirements: 486/DX or better, Windows 3.1 or Windows for
  2505.        Workgroups, 8Mb RAM (minimum), SoundBlaster or compatible sound
  2506.        card, Dialogic D2X or D4X board, and mouse. Microphone and speaker
  2507.        optional. Supports Visual Basic, Visual C++, Borland C++, and
  2508.        Delphi.
  2509.      * Contact: A&G Graphics Interface
  2510.        51 Gore Street, Cambridge, MA 02141-1213 , USA
  2511.        Ph: +1-617-492-0120, Fax: +1-617-427-2133
  2512.        Email: customvc@world.std.com
  2513.        CompuServe: 74774,273 CompuServe ( GO SPEECH )
  2514.        WWW: http://www.customvoice.com/
  2515.  
  2516.  
  2517.  
  2518. DATAVOX - French
  2519.  
  2520.      * Platform: PC / DOS
  2521.      * Description: Continuous speech - speaker independent or dependent.
  2522.      * Requirements: 2 PC format boards (RdF1000 and TdS 96/25) and an
  2523.        A/D - D/A module (ASA116)
  2524.      * Misc: Application software may dialog with DATAVOX through 2 types
  2525.        of interfaces :
  2526.           + Keyboard overlay: The application software may be used with
  2527.             any PC compatible package. No specific adaptation is
  2528.             necessary, you only need to define your configuration with
  2529.             the application software.
  2530.           + C library: Allows a user-written program to drive the
  2531.             recognition system.
  2532.        DATAVOX is based on the AMADEUS speech recognition software
  2533.        developed at LIMSI. It provides
  2534.           + Continuous speech recognition with 500 words speaker
  2535.             dependent, 50 words speaker independent (custom-made
  2536.             vocabulary).
  2537.           + Grammar of the application language (syntax acquisition,
  2538.             verification and simplification software).
  2539.           + Large vocabulary : DATAVOX can recognize vocabularies of
  2540.             several thousand words as long as there are no more than 500
  2541.             words in the active vocabulary at any given node. It takes
  2542.             less than 1 second to change syntax and vocabulary.
  2543.           + Training controlled by the system (use of co-articulation
  2544.             models).
  2545.           + Response time less than 500 ms for any phrase length.
  2546.           + Synthetis (ADPCM) can be heard simultaneously while
  2547.             recognition is being carried out.
  2548.      * Contact: VECSYS
  2549.        Le Chene rond, 91570 Bievres, France
  2550.        Voice: 33 1 69 41 15 04, Fax: 33 1 69 41 24 30
  2551.  
  2552.  
  2553.  
  2554. Digital Dreams Speech Recognition Plug-Ins
  2555.  
  2556.      * Platform: Apple Macintosh
  2557.      * Description (General): A suite of speech plug-ins for the
  2558.        interactive multimedia market which enable developers to quickly
  2559.        incorporate speech recognition into their titles without having to
  2560.        resort to a low-level programming language, such as C. Speech
  2561.        plug-ins bridge the gap between a speech recognition API, such as
  2562.        Apple's PlainTalk Speech Recognition technology, and
  2563.        authoring/development environments, such as Macromedia Director or
  2564.        HyperCard. Digital Dreams currently offers Macintosh speech
  2565.        plug-ins for Macromedia Director and HyperCard. Support for other
  2566.        environments, including AppleScript, Apple Media Tool, Authorware,
  2567.        and Windows is being developed. Currently available for North
  2568.        American Adult English. More information is available on the
  2569.        Digital Dreams WWW site.
  2570.      * ShockTalk: is a combination of Netscape, ShockWave and Speech
  2571.        Recognition technologies for the Power Macintosh and Quadra AVs
  2572.        that enables you to navigate web sites and hyperlinks using spoken
  2573.        commands as well as create shockwave movies that respond to spoken
  2574.        user interactions.
  2575.      * Requirements: Power Macintosh (PowerPC w/ MacOS)
  2576.        Microphone (PlainTalk compatible)
  2577.        PlainTalk Speech Synthesis and PlainTalk Speech Recognition
  2578.        Netscape Navigator
  2579.      * Contact: Digital Dreams
  2580.        4308 Harbord Drive, Oakland, CA, 94618, USA
  2581.        Tel: (510) 547-6929 Fax: (510) 547-6799
  2582.        email: dreams@surftalk.com
  2583.        WWW: http://www.surftalk.com/
  2584.        FTP: ftp://ftp.surftalk.com/
  2585.  
  2586.  
  2587.  
  2588. DragonDictate for Windows
  2589.  
  2590.      * Platform: Windows
  2591.      * Description: Information moved to the page on Dragon Dictation
  2592.        products including DragonDictate for Windows
  2593.  
  2594.  
  2595.  
  2596. Dragon Dictation Products
  2597.  
  2598.      * Dragon NaturallySpeaking
  2599.      * DragonDictate for Windows
  2600.      * Dragon PowerSecretary
  2601.      * General Information
  2602.  
  2603.   Dragon NaturallySpeaking
  2604.  
  2605.      * Platform: Windows
  2606.      * Description: General purpose, continuous speech dictation system.
  2607.        Personal Edition has a 30,000 word active vocabulary and comes
  2608.        with a 200,000+ word pronunciation dictionary; users can also add
  2609.        their own words or phrases.
  2610.        More information on Dragon's NaturallySpeaking web site.
  2611.      * Requirements: 133Mhz Pentium, 32 MB RAM (Windows 95) or 48 MB RAM
  2612.        (Windows NT 4.0), supported sound card.
  2613.      * Price: see Dragon's NaturallySpeaking web site.
  2614.      * Related products: see general information below
  2615.      * Contact: see general information below
  2616.  
  2617.   DragonDictate for Windows
  2618.  
  2619.      * Platform: Windows
  2620.      * Description: Speech-to-text dictation system. Discrete dictation;
  2621.        continuous command/control; speaker-adaptive. Also provides mouse
  2622.        movement for hands-free operation of Windows. Comes with a 120,000
  2623.        word pronunciation dictionary; users can also add their own words
  2624.        or phrases. Dictate directly into any application. Available in US
  2625.        and UK English, French, Italian, German, Spanish, and Swedish.
  2626.        Add-on vocabularies for medicine, law, business and finance,
  2627.        computers and technology, journalism.
  2628.        Available as DragonDictate Singles Editions (10,000 words active),
  2629.        DragonDictate Personal Edition (10,000 words active),
  2630.        DragonDictate Classic Edition (30,000 words active), DragonDictate
  2631.        Power Edition (60,000 words active).
  2632.        Includes Office97 support.
  2633.        More information on the Dragon Systems web site.
  2634.      * Requirements: 486/66, 7-10 MB dedicated RAM (depending on
  2635.        edition), Windows 3.1x, NT 3.51, or 95.
  2636.        Supported sound boards: Creative Labs Sound Blaster 16, Microsoft
  2637.        Windows Sound System, IBM M-Audio Capture/Playback Adapter, many
  2638.        notebooks with built-in audio.
  2639.        See Dragon Systems Compatibility list for details.
  2640.      * Price: Check at the Dragon Systems web site.
  2641.      * Related products: see general information below
  2642.      * Contact: see general information below
  2643.  
  2644.   Dragon PowerSecretary
  2645.  
  2646.      * Platform: Apple Macintosh
  2647.      * Description: Speaker dependent/adaptive system requiring words to
  2648.        be separated by short pauses. Available as PowerSecretary Power
  2649.        Edition, Personal Edition, PowerSecretary MED for Healthcare
  2650.        Professionals.
  2651.        Vocabulary: 30,000 - 60,000 at any one time, automatically
  2652.        selected from 120,000-word dictionary.
  2653.      * Requirements: Power Macintosh 6100, 7100, 8100, Performa 6100
  2654.        series, Powerbook 540, 68040 class Macintosh such as Quadra 660AV,
  2655.        700, 800, 840AV, 900, 950, Centris 650 and 660AV.
  2656.        Hard Disk with at least 25Mb free.
  2657.        System 7.5 or greater
  2658.        (Some systems require add-on hardware)
  2659.      * More information: PowerSecretary home page
  2660.      * Related products: see general information below
  2661.      * Contact: see general information below
  2662.  
  2663.   General Information
  2664.  
  2665.     Dragon Dictation Products
  2666.  
  2667.      * Dragon NaturallySpeaking
  2668.      * DragonDictate for Windows
  2669.      * Dragon PowerSecretary
  2670.      * General Information
  2671.  
  2672.     Dragon Developer Products
  2673.  
  2674.      * Dragon PhoneQuery
  2675.      * DragonXTools
  2676.      * Dragon SpeechTool
  2677.      * Dragon VoiceTools
  2678.  
  2679.     Related Web Sites
  2680.  
  2681.      * Simon Crosby's FAQ for DragonDictate
  2682.  
  2683.     Contact:
  2684.  
  2685.      * Dragon Systems, Inc.
  2686.        320 Nevada Street, Newton, MA 02160, USA
  2687.        Tel: 1-617-965-5200 or 1-800-TALK-TYP
  2688.        Fax: 1-617-527-0372
  2689.        Email: info@dragonsys.com
  2690.        WWW: http://www.dragonsys.com/
  2691.        CompuServe: GO DRAGON
  2692.  
  2693.  
  2694.  
  2695. Dragon Developer Tools
  2696.  
  2697.      * Dragon PhoneQuery
  2698.      * DragonXTools
  2699.      * Dragon SpeechTool
  2700.      * Dragon VoiceTools
  2701.  
  2702.   Dragon PhoneQuery
  2703.  
  2704.      * Platform: Windows NT
  2705.      * Description: Software for building voice response systems. Callers
  2706.        are able to do the following: Ask for information using completely
  2707.        natural and continuous language. Have a spoken dialog to fine tune
  2708.        a request. Request information to be faxed, sent by electronic
  2709.        mail, or read over the phone, using text-to-speech.
  2710.        More information on the Dragon Systems telephony pages.
  2711.      * Requirements: Pentium or Pentium Pro PC running Windows NT 4.0.
  2712.        Telephone interconnect requirements vary by application.
  2713.      * Related products: see general information below
  2714.      * Contact: see general information below
  2715.  
  2716.   DragonXTools
  2717.  
  2718.      * Platform: Windows
  2719.      * Description: VBX and OCX controls that allow an application to
  2720.        control DragonDictate's capabilities, ranging from small
  2721.        vocabulary command and control to customized large vocabulary
  2722.        dictation. More information is available on the Dragon Developer
  2723.        pages
  2724.      * Related products: see general information below
  2725.      * Contact: see general information below
  2726.  
  2727.   Dragon SpeechTool
  2728.  
  2729.      * Platform: Windows
  2730.      * Description: Create small, optimized vocabularies for your
  2731.        speech-enabled applications, or supplement DragonDictate's
  2732.        extensive built-in vocabularies with specialized terms and names.
  2733.        More information is available on the Dragon Developer pages
  2734.      * Related products: see general information below
  2735.      * Contact: see general information below
  2736.  
  2737.   Dragon VoiceTools
  2738.  
  2739.      * Platform: Windows, DOS
  2740.      * Description: integrate small-vocabulary speech recognition
  2741.        directly into your DOS and Windows 3.1x applications. More
  2742.        information is available on the Dragon Developer pages
  2743.      * Related products: see general information below
  2744.      * Contact: see general information below
  2745.  
  2746.   General Information
  2747.  
  2748.     Dragon Dictation Products
  2749.  
  2750.      * Dragon NaturallySpeaking
  2751.      * DragonDictate for Windows
  2752.      * Dragon PowerSecretary
  2753.      * General Information
  2754.  
  2755.     Dragon Developer Products
  2756.  
  2757.      * Dragon PhoneQuery
  2758.      * DragonXTools
  2759.      * Dragon SpeechTool
  2760.      * Dragon VoiceTools
  2761.  
  2762.     Related Web Sites
  2763.  
  2764.      * Simon Crosby's FAQ for DragonDictate
  2765.  
  2766.     Contact:
  2767.  
  2768.      * Dragon Systems, Inc.
  2769.        320 Nevada Street, Newton, MA 02160, USA
  2770.        Tel: 1-617-965-5200 or 1-800-TALK-TYP
  2771.        Fax: 1-617-527-0372
  2772.        Email: info@dragonsys.com
  2773.        WWW: http://www.dragonsys.com/
  2774.        CompuServe: GO DRAGON
  2775.  
  2776.  
  2777.  
  2778. EARS: Single Word Recognition Package
  2779.  
  2780.      * Platform: Linux and Unixs with the Voxware sound driver
  2781.      * Description: Intended as a limited ready-to-use single word
  2782.        recognizer. However, its design aims at being a platform for
  2783.        various kinds of methods used in speech recognition (SR). EARS is
  2784.        designed to be a flexible environment for recognition system
  2785.        components; for example, take this feature extractor and that
  2786.        recognizing method, and this list of words. New methods for single
  2787.        word recognition can be integrated easily, as EARS uses C++
  2788.        abstract base classes. You speak the words you want to be
  2789.        recognized later. Your utterances can be saved to RIFF WAV files
  2790.        for inspection, change or delete them before they are further
  2791.        processed to the pattern files on which the recognizer is finally
  2792.        trained. As of version 0.20, the feature extractors are:
  2793.        Rasta-PLP, PLP, LPC, Mel-Cepstrum. The implemented recognizers
  2794.        are: DTW and non-recurrent neural nets on fixed-size sound
  2795.        patterns.
  2796.      * Requirements: Soundcard with mic
  2797.      * Misc 1: The current version is an Alpha release.
  2798.      * Misc 2: For more information subscribe to the EARS mailing list.
  2799.        Send email to majordomo@phil.uni-sb.de with "subscribe ears-list"
  2800.        in the body.
  2801.      * Misc 3: Niels Thorwirth (thorwir@pi4.informatik.uni-mannheim.de)
  2802.        has made changes to Version 0.14 which support the AF audio server
  2803.        software (see Q1.11) and the OGI Speech Tools (see Q1.9) so that
  2804.        EARS is more portable to other UNIX platforms. Available by email
  2805.        to Niels.
  2806.      * Requirements: Soundcard with mic
  2807.      * Availability: Source and Linux binaries are available by anonymous
  2808.        ftp
  2809.        ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/recognition/ears-0.26.
  2810.        tar.gz
  2811.        ftp://sunsite.unc.edu/pub/Linux/apps/sound/speech/ears-0.26.tar.gz
  2812.      * Contact: Ralf W. Stephan: ralf@ark.franken.de
  2813.  
  2814.  
  2815.  
  2816. Ficomp Interpreter 6000
  2817.  
  2818.      * Platform: DOS, Windows 3.1, Win95, Win NT, UNIX
  2819.      * Description: Ficomp Systems, inc., is a systems integrator that
  2820.        has developed commercial speaker-dependent, continuous-speech
  2821.        recognition applications for use in high noise environments on
  2822.        several platforms. Applications are specialized in the finance
  2823.        industry for exchange floors, banks and brokerage firms.
  2824.      * Contact: Ficomp Systems, Inc.
  2825.        Ph: (732) 274-2600, Fax: (732) 274-2601
  2826.        117 Docks Corner Road, Dayton, NJ 08810
  2827.        E-Mail: fsisales1@aol.com
  2828.        WWW: http://www.ficompsystems.com/
  2829.  
  2830.  
  2831.  
  2832. HM2007 - Speech Recognition Chip
  2833.  
  2834.      * Platform: Intergrated circuit.
  2835.      * Description: HM2007 is a 48-pin single chip CMOS voice recognition
  2836.        LSI circuit with on-chip analog front end, voice analysis,
  2837.        recognition process and system control functions. A 40 word
  2838.        isolated-word voice recognition system can be composed of an
  2839.        external microphone, keyboard, SRAM and a few other components.
  2840.        When combined with a microprocessor, an intelligent recognition
  2841.        system can be built. A demo board for this chip is being
  2842.        distributed by The Summa Group.
  2843.      * Cost: Approx US$16 for the HM2007 and US$160 for the demo board.
  2844.      * Misc: Jean-Pierre Lereboullet's document on Voice Recognition
  2845.        Processors provides additional information on the HM2007.
  2846.      * Producer: HUALON Microelectronic Corp. USA
  2847.        Tel: (415) 288 0390 Fax: (415) 288-0399
  2848.      * Distributor 1: Marywale Engineering Company
  2849.        Tel: (602) 247 4451 Fax: (602) 247 6167
  2850.        Email: meco@indirect.com
  2851.      * Distributor 2: The Summa Group Limited
  2852.        One California Street, Suite #1940,
  2853.        San Francisco, CA 94111
  2854.        Ph: (415) 288-0390
  2855.      * Distributor 3: Images Company
  2856.        39 Seneca Loop, Staten Island, NY 10314, USA
  2857.        Ph: +1-718-698-8305, Fax: +1-718-982-6145
  2858.        Sells single piece quanities of HM2007 48Pin Dip Chip and HM2007
  2859.        52 Pin PLCC style chip. Sells HM2007 Demo Kits unassembled $100.00
  2860.        and assembled $135.00 (using 48 Pin dip chip)
  2861.  
  2862.  
  2863.  
  2864. Entropic's HTK (HMM Toolkit)
  2865.  
  2866.      * Platform: Range of Unix platforms.
  2867.      * Description: HTK is a software toolkit for building continuous
  2868.        density HMM based speech recognisers. It consists of a number of
  2869.        library modules and a number of tools. Functions include speech
  2870.        analysis, training tools, recognition tools, results analysis, and
  2871.        an interactive tool for speech labelling. Many standard forms of
  2872.        continuous density HMM are possible. Can perform isolated word or
  2873.        connected word speech recognition. It van model whole words, sub-
  2874.        word units. Can perform speaker verification and other pattern
  2875.        recognition work using HMMs. HTK is now integerated with the
  2876.        ESPS/Waves speech research environment which is described in
  2877.        Section 1.9.
  2878.      * Misc 1: The availability of HTK changed in early 1993 when
  2879.        Entropic obtained exclusive marketing rights to HTK from the
  2880.        developers at Cambridge.
  2881.      * Misc 2: More detailed information on HTK is available from the
  2882.        Entropic WW server: http://www.entropic.com/htk.html
  2883.      * Cost: On request.
  2884.      * Contact:
  2885.  
  2886.     Entropic Research Laboratory,
  2887.     600 Pennsylvania Ave, S.E. Suite 202,
  2888.     Washington, D.C. 20003, USA
  2889.     Phone: (202) 547-1420.
  2890.     email - info@entropic.com
  2891.     WWW: http://www.entropic.com/
  2892.  
  2893.  
  2894.  
  2895. IBM VoiceType Dictation
  2896.  
  2897.      * Platform: OS/2 and Windows
  2898.      * Description: IBM VoiceType Dictation supports speech input at
  2899.        70-100 words a minute and can be used to control your desktop and
  2900.        applications. Isolated-word, speaker-dependent system using a
  2901.        speech adapter card. Available for U.S. English, U.K. English,
  2902.        French, German, Italian, Spanish and Arabic. Provided with a
  2903.        general office vocabulary and support for major OS/2 and Windows
  2904.        applications. Additional specialised vocabularies are available:
  2905.           + US: Legal, Emergency Medicine, Radiology and Journalism
  2906.           + UK: Legal
  2907.           + IT: Radiology
  2908.      * Requirements: See
  2909.        http://www.software.ibm.com/workgroup/voicetyp/vtprod13.html
  2910.      * Cost: See
  2911.        http://www.software.ibm.com/workgroup/voicetyp/vtordna.html
  2912.      * Misc: An IBM VoiceType Dictation FAQ is supported by UltraMedia
  2913.        Systems International (a distributor of IBM VoiceType):
  2914.        http://www.infi.net/~ums/ibmfaq.htm
  2915.      * Demo software: Available on the IBM WWW site:
  2916.        http://www.software.ibm.com/workgroup/voicetyp/vtcust1.html
  2917.      * Contact: US Ph: 1-800-TALK-2-ME or 1-914-766-1900.
  2918.        Email: talk2me@vnet.ibm.com
  2919.        WWW: http://www.software.ibm.com/workgroup/voicetyp/vtcust1.html
  2920.  
  2921. IBM VoiceType Control (US Only)
  2922.  
  2923.      * Platform: OS/2 and Windows
  2924.      * Description: VoiceType Control is a speech recognition navigator
  2925.        that lets you control programs by speaking. VoiceType Control
  2926.        converts voice commands to keystroke macros. The program provides
  2927.        speaker independent, continuous speech recognition, so you do not
  2928.        have to train the program for your specific speech patterns.
  2929.      * Requirements: ?
  2930.      * Cost: ?
  2931.      * Demo software:
  2932.        http://www.software.ibm.com/workgroup/voicetyp/vtcust2.html
  2933.      * Contact: US Ph: 1-800-TALK-2-ME or 1-914-766-1900.
  2934.        Email: talk2me@vnet.ibm.com
  2935.        WWW: http://www.software.ibm.com/workgroup/voicetyp/vtcust2.html
  2936.  
  2937.  
  2938.  
  2939. IN CUBE
  2940.  
  2941.      * Platform: Three versions for Windows 95, Windows NT and Sun
  2942.        SPARCstations
  2943.      * IN CUBE for Windows 95: Developed for general purpose Windows 95
  2944.        users. It is packaged for online distribution with a full working
  2945.        demo and an option to register and unlock the full product. The
  2946.        system uses Command Corp's Mark II continuous speech recognition
  2947.        engine and handles changable lexicons of up to 75 commands.
  2948.           + Price: $49.95 US
  2949.           + Requirements: 386/25MHz processor or better, Microsoft
  2950.             Windows 3.1 or later, Windows compatible sound card or
  2951.             built-in audio, and microphone.
  2952.           + Availability: http://www.commandcorp.com/cci/win95.html
  2953.             Demo mode available.
  2954.      * IN CUBE Mark II Pro for Windows NT: IN CUBE is a continuous
  2955.        realtime speech recognition system developed to provide a fast and
  2956.        convenient means of window navigation and voice macro command
  2957.        input for command intensive applications like CAD and publishing.
  2958.        Speaker-dependent training and ability to add new commands and
  2959.        macros.
  2960.           + Price: $495 including the PRO 8 microphone. $540 including
  2961.             the MT 858 desk microphone.
  2962.           + Requirements: Windows NT, Windows NT-compatible audio board
  2963.             (16-bit audio recommended).
  2964.           + Availability: http://www.commandcorp.com/cci/pront.html
  2965.             Demo available.
  2966.      * IN CUBE Voice Command for Sun SPARCstations: Provides continuous
  2967.        realtime speech recognition system for window navigation and voice
  2968.        macro command input to the workstation. Speaker-dependent training
  2969.        and ability to add new commands and macros.
  2970.        An IN CUBE Application Programming Interface is available with a
  2971.        library of linkable object modules is available for developers.
  2972.           + Price: $495 per seat. The developer's API sells for $695.
  2973.           + Requirements: SUN OS 4.1.x or Solaris 2.x with OpenWindows
  2974.             and Motif. Works with all audio-equipped SPARCs and clones.
  2975.             Models range from SPARCStation 1s to SPARCStation 20s.
  2976.           + Availability: http://www.commandcorp.com/cci/in3sparc.html
  2977.             A free 5 day evaluation license is available.
  2978.      * Contact: Command Corp. Inc.,
  2979.        3761 Venture Drive, PO Box 956099, Duluth, Georgia, 30136, USA
  2980.        Ph: +1-770-813-8030
  2981.        Email: in3@commandcorp.com
  2982.        WWW: http://www.commandcorp.com/incube_welcome.html
  2983.  
  2984.  
  2985.  
  2986. Jialong He's Speech Recognition Research Tool
  2987.  
  2988.      * Platform: SUN SPARC (SunOS), PC (MSDOS)
  2989.      * Description: This is a speech recognition research tool. it
  2990.        contains a feature extraction program and three speech
  2991.        recognizers: a DTW recognizer, discrete didden Markov model (DHMM)
  2992.        based recognizer and Continuous density hidden Markov mode (CHMM)
  2993.        with Gaussian mixture functions based recognizer. The utilities
  2994.        are grouped as:
  2995.           + feature -- extract featue vectors from a speech signal (MFCC
  2996.             etc.)
  2997.           + dtwcmp -- dynamic time-wapping (DTW) comparision.
  2998.           + gensym -- turn vector sequences to discrete observation
  2999.             symbols.
  3000.             dhmm -- discrete HMM training program.
  3001.             dtest -- DHMM companion test program.
  3002.           + chmm -- continuous density HMM training program.
  3003.             viterbi -- CHMM companion test program.
  3004.        Note, this is a research tool not a complete speech recognition
  3005.        system.
  3006.      * Availability: By anonymous ftp:
  3007.  
  3008.         MSDOS Version
  3009.                 UK:
  3010.                 ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/recognition/s
  3011.                 pchtool.zip
  3012.                 Germany:
  3013.                 ftp://ftp.informatik.uni-ulm.de/pub/NI/jialong/spchtool.z
  3014.                 ip
  3015.  
  3016.         Sun SPARC version, compiled with GNU C
  3017.                 UK:
  3018.                 ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/recognition/s
  3019.                 pch_sun_v1.tar.gz
  3020.                 Germany:
  3021.                 ftp://ftp.informatik.uni-ulm.de/pub/NI/jialong/speech_sun
  3022.                 _v1.tar.gz
  3023.  
  3024.      * See also: Jialong He's Speaker Recognition (Identification) Tool
  3025.      * Contact: Jialong He
  3026.        email: jialong@neuro.informatik.uni-ulm.de
  3027.  
  3028.  
  3029.  
  3030. Kurzweil Voice for Windows
  3031.  
  3032.      * Platform: Windows 3.1 or later
  3033.      * Description: Kurzweil Voice for Windows is a dictation product
  3034.        enabling the user to create text and enter data by speaking to
  3035.        Windows-based applications. System is adaptive but requires no
  3036.        initial training. Users can choose either 30,000 or 60,000 word
  3037.        active vocabulary. Application command translation templates for
  3038.        popular Windows application such as WordPerfect, 1-2-3, Organizer,
  3039.        Word (30+ applications are listed on the Kuzweil WWW pages). More
  3040.        detailed information is available on the Kurzweil WWW pages.
  3041.      * Requirements: 486DX/33 or higher, 8 or 16 MB dedicated memory
  3042.        (depends on vocabulary, 30 MBs dedicated disk space, VGA or
  3043.        higher, Kurzweil-supplied microphone and DSP board.
  3044.      * Contact:
  3045.        Kurzweil Applied Intelligence, Inc.
  3046.        411 Waverley Oaks Road, Waltham, MA 02154 USA
  3047.        Phone: 1-800-380-1234
  3048.        Email: info@kurzweil.com
  3049.        WWW: http://www.kurzweil.com/
  3050.  
  3051. Kurzweil Clinical Reporter
  3052.  
  3053.      * Platform: Windows 3.1 or later
  3054.      * Description: Kurzweil Clinical Reporter is a voice-activated
  3055.        clinical reporting system for computer-based patient records. The
  3056.        family of products includes:
  3057.           + VoiceEM for emergency medicine
  3058.           + VoiceEM/TR for triage reporting
  3059.           + VoiceRAD for diagnostic imaging and radiology
  3060.           + VoicePATH for surgical and anatomical pathology
  3061.           + VoiceMED for Primary Care for family medicine, internal
  3062.             medicine and pediatrics
  3063.           + VoiceORTHO for office-based orthopaedic surgery
  3064.           + VoiceCATH for invasive cardiology
  3065.           + VoiceReport for general reporting
  3066.      * More information: from the Kurzweil WWW pages:
  3067.        http://www.kurzweil.com/medical/
  3068.      * Contact:
  3069.        Kurzweil Applied Intelligence, Inc.
  3070.        411 Waverley Oaks Road, Waltham, MA 02154 USA
  3071.        Phone: 1-800-380-1234
  3072.        Email: info@kurzweil.com
  3073.        WWW: http://www.kurzweil.com/
  3074.  
  3075.  
  3076.  
  3077. Lernout & Hauspie ASR 1000/T and 1000/M
  3078.  
  3079.    [Note: L&H asr200/A is described below.]
  3080.  
  3081.      * L&H asr1000/T: ASR for the Telephony and Telecommunications Market
  3082.      * L&H asr1000/M: TTS for the Computer and Multimedia Market
  3083.  
  3084.      * Description: Automatic speech recognition software providing
  3085.        continuous speech recognition, isolated word recognition, keyword
  3086.        spotting or continuous digits recognition. The engine is speaker
  3087.        independent, and phoneme-based with optimization for commonly used
  3088.        words. General features include:
  3089.           + Languages available: US English, German, French, Spanish
  3090.             (Castilian), Dutch.
  3091.           + Available vocabulary: >100,000 words.
  3092.           + Line adaptation.
  3093.           + Rejection of out of vocabulary/grammar words.
  3094.           + N-best alternatives for isolated word recognition and keyword
  3095.             spotting.
  3096.           + Push to talk.
  3097.      * asr1000/T
  3098.           + Single channel platform examples: Motorola 56156, TI
  3099.             TMS320C2X/C3X/C5X
  3100.           + Multi-channel platform examples: TI TMS320C3X/C5X, AT&T
  3101.             DSP32C/3210, Motorola 96000
  3102.           + Input: 8 kHz telephone sampling
  3103.      * asr1000/M
  3104.           + Single processor platform examples: Intel 486/Pentium
  3105.           + Input: 8 kHz telephone or 11 kHz microphone sampling
  3106.      * See also: L&H ASR SDK for Windows
  3107.      * More Information: on the Lernout & Hauspie WWW pages:
  3108.        http://www.lhs.com/asr.html
  3109.      * Cost: Unknown
  3110.      * Contact: Lernout & Hauspie Speech Products
  3111.        800 West Cummings Park, Suite 3100
  3112.        Woburn, MA 01801, USA
  3113.        Tel: (617) 238 0960
  3114.        Fax: (617) 238 0986
  3115.        Email: sales@lhs.com
  3116.        WWW: http://www.lhs.com/
  3117.  
  3118. Lernout & Hauspie ASR 200/A for the Automotive and Industrial Market
  3119.  
  3120.      * Description: Automatic speech recognition software providing
  3121.        isolated word recognition, keyword spotting and alphabet
  3122.        recognition (optional). This engine is robust, speaker independent
  3123.        and word based. Other features:
  3124.           + Vocabulary: 100 words US English
  3125.           + Voice activation detection
  3126.           + Response time
  3127.           + Platform examples: Analog Devices ADSP2101/5
  3128.           + Input: 8 kHz telephone or microphone sampling
  3129.      * See also: L&H ASR SDK for Windows
  3130.      * More Information: on the Lernout & Hauspie WWW pages:
  3131.        http://www.lhs.com/asr.html
  3132.      * Cost: Unknown
  3133.      * Contact: Lernout and Hauspie Speech Products
  3134.        20 Mall Road, 4th Floor
  3135.        Burlington, MA 01803, USA
  3136.        Ph: +1-617-238-0960, Fax: +1-617-238-0986
  3137.        Email: sales@lhs.com
  3138.        WWW: http://www.lhs.com/
  3139.  
  3140.  
  3141.  
  3142. Lernout & Hauspie ASR SDK
  3143.  
  3144.      * Platform: Windows
  3145.      * Description: Windows based Software Development Kits are available
  3146.        for integrating automatic speech recognition technology with
  3147.        Windows based PC applications.
  3148.      * Requirements: IBM-compatible 486 DX/33 MHz + 8 MB RAM + MS DOS 5.0
  3149.        + MS Windows 3.1 (or higher) + Sound Blaster compatible sound
  3150.        board.
  3151.      * See also: L&H ASR Products
  3152.      * More Information: on the Lernout & Hauspie WWW pages:
  3153.        http://www.lhs.com/asr.html
  3154.      * Contact: Lernout and Hauspie Speech Products
  3155.        20 Mall Road, 4th Floor
  3156.        Burlington, MA 01803, USA
  3157.        Ph: +1-617-238-0960, Fax: +1-617-238-0986
  3158.        Email: sales@lhs.com
  3159.        WWW: http://www.lhs.com/
  3160.  
  3161.  
  3162.  
  3163. Listen for Windows 2.0 from Verbex Voice Systems
  3164.  
  3165.      * Platform: Windows
  3166.      * Description: Listen for Windows Version 2.0 is a Speaker
  3167.        Independent software product that provides continuous speech
  3168.        recognition for Windows applications. The product works with most
  3169.        industry standard sound cards and PCs with inbedded audio chips.
  3170.        Listen for Windows comes with over 16,000 commands in speech
  3171.        interfaces for over 40 software applications, such as MS Office,
  3172.        Lotus SmartSuite,Quicken, etc. The Listen Command Editor allows a
  3173.        user to change or add commands to existing speech interfaces or
  3174.        create new speech interfaces for most Windows applications.
  3175.        More detailed information is available on the Verbex Listen for
  3176.        Windows page.
  3177.        Verbex also sells Verbal Advantage Voice Browser for controlling a
  3178.        web browser, Verbal Advantage DeskTop for controlling desktop
  3179.        applications.
  3180.      * Requirements: 486/25SX PC or higher
  3181.      * Pricing and Availbility: See the Verbex ordering page for pricing.
  3182.        Verbex products are available over the web or can be shipped.
  3183.        Microphones available from Verbex.
  3184.      * Demo: A "Freeware" demo is available from the Verbex WWW site demo
  3185.        page.
  3186.      * Contact: Verbex Voice Systems
  3187.        1090 King Georges Post Rd., Bldg 107, Edison NJ 08837, USA
  3188.        Ph: 1-800-ASK-VRBX, (908) 225-5225, Fax:(908) 225-7764
  3189.        WWW: http://www.verbex.com/
  3190.  
  3191.  
  3192.  
  3193. Lotec Speech Recognition Package
  3194.  
  3195.      * Platform: Sun
  3196.      * Description: Public domain speech recognition software. Operates
  3197.        from input in Sun audio format (.au files) and outputs word
  3198.        hypotheses and time labelling data. The software includes programs
  3199.        to collect speech samples, a labeller, a "featurizer" which
  3200.        parameterises speech files, a word spotter and the recogniser. The
  3201.        software can real time recognition on a Sparc 10 for small
  3202.        vocabularies.
  3203.      * Requirements: Sun SPARC audio input and a "decent" microphone Sun
  3204.        multimedia demo software (in /usr/demo/SOUND) and X.
  3205.      * Availability: By anonymous ftp
  3206.        ftp://ftp.sanpo.t.u-tokyo.ac.jp/pub/nigel/lotec/lotec.tar.Z
  3207.      * Contact: Nigel Ward: _nigel@sanpo.t.u-tokyo.ac.jp _
  3208.  
  3209.  
  3210. Macintosh Speech Recognition Manager
  3211.  
  3212.      * Platform: Macintosh
  3213.      * Description: supports developers who wish to add speech
  3214.        recognition to existing Macintosh applications. Provides speaker
  3215.        independent recognition and robustness to noise. Apple's Speech
  3216.        home page provides developer information and the complete speech
  3217.        recognition and synthesis synthesis SDKs. The recognition SDK
  3218.        includes samples code, control panels, interfaces, documentation
  3219.        and the recognizer.
  3220.      * Availability: under licensing conditions from the Macintosh Speech
  3221.        Developer's page
  3222.        http://www.speech.apple.com/speech/dev/dev.html.
  3223.      * Requirements: Power Macintosh with 16-bit sound, System 7.5, and a
  3224.        PlainTalk Microphone or equivalent
  3225.      * Cost: Free
  3226.      * See also: Macintosh Plaintalk and Speech Manager (Q5.5).
  3227.      * Note: Check out Kevin Lenzo's list of Macintosh Speech
  3228.        Applications.
  3229.      * Contact: Apple Computer, Inc.
  3230.        1 Infinite Loop, Cupertino, CA 95014, USA
  3231.        WWW: http://www.speech.apple.com/
  3232.        Email: PlainTalk@atg.apple.com
  3233.  
  3234.  
  3235.  
  3236. Microsoft Speech Recognition
  3237.  
  3238.     Microsoft Dictation Research Demonstration
  3239.  
  3240.      * Platform: Windows 95 or Windows NT 4.0
  3241.      * Description: A free demonstration of research technology that
  3242.        enables a computer to transcribe what you speak into Windows
  3243.        applications such as email and word-processors. Features of the
  3244.        demo software include:
  3245.           + 60,000 word vocabulary with the ability to add new words
  3246.           + High recognition accuracy
  3247.           + Works with any Windows 5application
  3248.           + "Dictation Pad" provides enhanced dictation features
  3249.           + "IntelliSense" converts spoken numbers and times
  3250.             automatically
  3251.           + Compatible with the Microsoft Speech API
  3252.      * Requirements: Windows 95 or Windows NT 4.0, Pentium 90 or better
  3253.        (RISC builds are available), 16 megabytes of RAM on Windows 95,
  3254.        Sound card with 16 kHz 16 bit input signals, High quality
  3255.        close-talk microphone, Speakers.
  3256.      * Availability: Free demo software is available at:
  3257.        http://www.research.microsoft.com/research/srg/install.htm
  3258.      * More information: http://www.research.microsoft.com/research/srg/
  3259.  
  3260.     Microsoft Command and Control Engine
  3261.  
  3262.      * Platform: Windows 95
  3263.      * Description: Provides command and control speech recognition using
  3264.        SAPI (the Microsoft Speech API) and "Whisper", Microsoft's speech
  3265.        recognition technology. Features include:
  3266.           + Speaker independent, continuous, sub-word modeling, context
  3267.             free grammars
  3268.           + Has its own letter-to-sound rules means it can recognize any
  3269.             words in a grammar.
  3270.           + North American English
  3271.           + PC microphone and telephone speech recognition with high
  3272.             performance
  3273.           + Word spotting option
  3274.           + Results objects containing top-N choices, segmentation, and
  3275.             confidence
  3276.           + Written to SAPI, the Microsoft Speech API.
  3277.      * Requirements: Windows 95 or Windows NT 4.0, Pentium 60 or better.
  3278.        (RISC builds are available), 1.5 megabyte working set, 16 kHz or 8
  3279.        kHz input signals, 6 megabytes on disk, Requires Microsoft Speech
  3280.        SDK to use.
  3281.      * Availability: Free demo software is available at:
  3282.        http://www.research.microsoft.com/research/srg/install.htm
  3283.      * More information: http://www.research.microsoft.com/research/srg/
  3284.  
  3285.  
  3286.  
  3287. Myers' Hidden Markov Model software
  3288.  
  3289.      * Platform: Unix
  3290.      * Description: Hidden Markov model software for automatic speech
  3291.        recognition. C++ code that implements a basic left-right hidden
  3292.        Markov model and corresponding Baum-Welch (ML) training algorithm.
  3293.        It is meant as an example of the HMM algorithms described by
  3294.        L.Rabiner and others. The code was built in order to learn how HMM
  3295.        systems work and we are now offering it to the net so that others
  3296.        can learn how to use HMMs for speech recognition. Keep in mind
  3297.        that ease of understanding was our primary concern, not
  3298.        efficiency. The code can be used to build an experimental speech
  3299.        recognition systems using "train_hmm" and "test_hmm", and can be
  3300.        used in conjunction with written tutorials on HMMs to understand
  3301.        how they work.
  3302.      * Availability: By anonymous ftp from the comp.speech archive site.
  3303.        There are two files in the directory
  3304.           + ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/recognition/
  3305.        The files are
  3306.           + hmm.README
  3307.           + hmm-1.03.tar.gz
  3308.      * Contact: Richard Myers: rmyers@isx.edu
  3309.  
  3310.  
  3311.  
  3312. NCC Dictate
  3313.  
  3314.      * Platform: Windows
  3315.      * Description: NCC Digital DictateTM is an add-on, enhanced
  3316.        interface for use with IBM's VoiceType(TM) Dictation for Windows
  3317.        and various Windows 3.1 applications (e.g. MS Word, WordPerfect).
  3318.        Digital DictateTM provides faster corrections and dictation rates
  3319.        and various other features. This version is not a stand alone
  3320.        product; it requires VoiceTypeTM Dictation to provide the speech
  3321.        recognition engine and the Windows application. Features include:
  3322.           + Direct dictation into Windows applications with access to all
  3323.             functions while dictating.
  3324.           + Versions for MS Word, WordPerfect, Ami Pro, and other Windows
  3325.             applications.
  3326.           + Speech enabled editing.
  3327.           + Capability to save speaker models and defer corrections.
  3328.           + Microphone "pause and restore" functions controlled with
  3329.             speech commands.
  3330.           + Add-on vocabularies for legal, medical, science and business.
  3331.           + SWITCH-ITTM foot pedal control or CardSwitchTM infrared
  3332.             wireless control available which switch between dictation and
  3333.             proofing/correction modes.
  3334.      * Requirements: IBM's VoiceTypeTM Dictation for Windows; a computer
  3335.        system meeting VoiceTypeTM Dictation for Windows requirements;
  3336.        VoiceTypeTM Dictation Adapter.
  3337.      * Availability: Through computer dealerships.
  3338.      * Price: $US295
  3339.      * Contact: NCC Incorporated
  3340.        5808 E. Turquoise, Scottsdale, AZ 85253
  3341.        Ph: (602) 922-6236 Fax: (602) 596-9050
  3342.  
  3343.  
  3344.  
  3345. NICO Artificial Neural Network Toolkit
  3346.  
  3347.      * Platform: UNIX (ANSI C source code)
  3348.      * Description: The NICO Toolkit is an artificial neural network
  3349.        toolkit specifically designed and optimized for automatic speech
  3350.        recognition applications. Networks with both recurrent connections
  3351.        and time-delay windows are easily constructed. The network
  3352.        topology is flexible -- any number of layers is allowed and layers
  3353.        can be arbitrarily connected. Tools for extracting input-features
  3354.        from the speech signal are included as well as tools for computing
  3355.        target values from standard phonetic label-files.
  3356.      * Availability: Through the NICO homepage
  3357.        (http://www.speech.kth.se/NICO/index.html)
  3358.        or the download page.
  3359.      * Contact: Nikko Strom, nikko@speech.kth.se
  3360.  
  3361.  
  3362.  
  3363. Nuance Speech Recognition System
  3364.  
  3365.      * Platform: UNIX-based workstations including Sun and SGI.
  3366.      * Description: The Nuance Recognizer features client-server
  3367.        architecture with multiple recognizers available on a single
  3368.        processing platform. Primarily developed for telephony-based
  3369.        applications, the system accepts speaker-independent, continuous
  3370.        speech and supports very large vocabularies. Included is a
  3371.        "template matching" natural language capability for identifying
  3372.        the meaning of speech. A toolkit is available for use in
  3373.        developing a wide variety of speech recognition applications.
  3374.      * Price and availability: Contact Nuance
  3375.      * Contact: Nuance Communications
  3376.        1380 Willow Road, Menlo Park, CA 94025, USA
  3377.        Ph: +1-650-847-0000, Fax: +1-650-847-7979
  3378.        WWW: http://www.nuance.com/
  3379.  
  3380.  
  3381.  
  3382. OKI VRP6679 - Voice Recognition Processor
  3383.  
  3384.      * Platform: Intergrated circuit.
  3385.      * Description: Speech recognition IC. 25 words max. Speaker
  3386.        independent recognition capability. Recognition rate quoted as 97%
  3387.        in a noisy environment (e.g. a car).
  3388.      * Misc: Alias MSM6679
  3389.      * Misc 2: More information is provided in Jean-Pierre Lereboullet's
  3390.        document on Voice Recognition Processors.
  3391.      * Cost: Approx US$20. Demo board $876
  3392.      * Availability: OKI Semiconductor and OKI Distributors
  3393.        Corporate Headquarters
  3394.        785 North Mary Avenue, Sunnyvale, CA, 94086 2909
  3395.        Tel: (408) 720 1900, Fax: (408) 720 1918
  3396.  
  3397.  
  3398.  
  3399. Phonetic Engine 500 (PE500) from Speech Systems, Inc.
  3400.  
  3401.      * Platform: Windows
  3402.      * Description: Speaker independent, 40,000 word vocabulary,
  3403.        continuous speech recognition for MS Windows. Grammars with high
  3404.        perplexity possible. Includes noise rejection. Uses proprietary
  3405.        DSP board.
  3406.      * Cost: Prices in US$ - quantity one. The PE500 SDK is $995.00
  3407.        including board, microphone, and runtime software. Runtime only is
  3408.        $595.00. SpeechWizard(r) adds speech input to existing Windows
  3409.        applications, $295.00. Two-day training: $295.00 with purchase,
  3410.        $595.00 without.
  3411.      * Misc: The user defines the grammar of allowed utterances and must
  3412.        write software to invoke the board driver functions that control
  3413.        recognition. The user must also write software to
  3414.        collect/parse/interpret the ASCII text strings returned when
  3415.        recognition succeeds.
  3416.      * Misc 2: SSI now offers speech application development services.
  3417.      * Contact:
  3418.  
  3419.     Speech Systems, Inc.
  3420.     2945 Center Green Court South
  3421.     Boulder, CO 80301-2275, USA
  3422.     Tel: 303.938.1110 Fax: 303.938.1874
  3423.     http://www.speechsys.com
  3424.  
  3425.  
  3426.  
  3427. Philips Speech Recognition (2 products)
  3428.  
  3429.     SpeechMagic: Dictation
  3430.  
  3431.      * Platform: Windows 3.1 and higher
  3432.      * Description: A continuous speech recognizer providing a 64,000
  3433.        word vocabulary, speaker adaptation and multiple languages.
  3434.        SpeechMagic is currently available for English and German.
  3435.        SpeechMagic acts as a server application, processing speech input
  3436.        and providing text output. Uses an add-on ISA compatible
  3437.        recognition accelerator board. SpeechMagic provided a correction
  3438.        editor, editing and playback of recordings, and a vocabulary
  3439.        manager for entering new words, abbreviations, macros and special
  3440.        transcriptions (e.g. for foreign words). Windows DDE support and a
  3441.        native API are provided for integration.
  3442.      * Hardware Requirements: IBM compatible personal computer (486DX/ 66
  3443.        MHz or higher), minimum 16 MB of RAM, hard disk capacity > 500 MB,
  3444.        and a Philips LFH 6210 Accelerator Board.
  3445.      * More Information: For more information visit the SpeechMagic WWW
  3446.        page or the Philips Speech home page.
  3447.  
  3448.     Speech Processing System 6000s (Europe only)
  3449.  
  3450.      * Description: Dictation of medical findings using continuous speech
  3451.        recognition. Designed for German speaking radiologists and
  3452.        encompasses the complete radiology vocabulary. The authors use
  3453.        dictation stations (PCs) which are fitted with microphones. The
  3454.        transcriptionists use editing stations (also PCs) which are
  3455.        additionally fitted with headphones and footswitches. The SP6000s
  3456.        has a single speech recognition unit serving all users, and it
  3457.        offers automatic data transfer as well as the advantages of
  3458.        digital dictation functions. For more information visit the
  3459.        Philips SP6000s WWW page.
  3460.      * More Information: For more information visit the Philips SP6000s
  3461.        WWW page or the Philips Speech home page.
  3462.  
  3463.  
  3464.  
  3465. Dragon PowerSecretary
  3466.  
  3467.      * Platform: Apple
  3468.      * Description: Information moved to the page on Dragon Dictation
  3469.        products including Dragon PowerSecretary
  3470.        (Previously Articulate PowerSecretary.)
  3471.  
  3472.  
  3473.  
  3474. ProNotes Voice Tools
  3475.  
  3476.      * Platform: Windows
  3477.      * Description: ProNotes Voice Tools are designed to bring the speech
  3478.        recognition capabilities of the IBM VoiceTypeTM Dictation System
  3479.        for Windows into any program without the need for the programmer
  3480.        to directly interface with the speech engine at the API level.
  3481.        There are five tools, as described below, which are all available
  3482.        in three forms: Visual Basic(TM) Custom Controls (known as VBXs),
  3483.        16-bit OLE Custom Controls, and 32-bit OLE Custom Controls. The
  3484.        tools are intended for use by Windows(TM) developers working with
  3485.        Windows 3.1(TM), Windows for Workgroups 3.11(TM), Windows NT 3.51
  3486.        Workstation(TM), and Windows 95(TM). The custom controls can be
  3487.        utilized with any application development environment which
  3488.        supports the use of such controls (e.g. Visual Basic and Visual
  3489.        C++).
  3490.  
  3491.         Playback and Record
  3492.                 An object which allows developers to use the IBM Speech
  3493.                 Engine to record and play back sound files. Can be used
  3494.                 to add voice prompts and to allow end users to record and
  3495.                 playback sound files.
  3496.  
  3497.         Voice Button
  3498.                 An object having standard button properties and behavior,
  3499.                 which can additionally be controlled by voice. The button
  3500.                 can also be used as a label or a 3D panel.
  3501.  
  3502.         Dictation Window
  3503.                 A text box that allows free dictation, voice macro
  3504.                 utilization, and correction by voice. Each Dictation
  3505.                 Window has access to global and context sensitive
  3506.                 vocabularies for both command and dictation. There are
  3507.                 three correction modes.
  3508.  
  3509.         Voice List Box
  3510.                 Has standard list box properties and behavior, but can
  3511.                 additionally be controlled by voice. A user can select
  3512.                 items by pronouncing the entry's text or the entries can
  3513.                 be numbered and selected accordingly.
  3514.  
  3515.         Voice Navigator
  3516.                 Provides navigation by voice within an application
  3517.                 developed with the Voice Tools, between voice-enabled
  3518.                 objects described above, as well as some standard objects
  3519.                 found within the application.
  3520.  
  3521.      * Requirements: Hardware: 80486/33 DX or higher, 60MB hard disk
  3522.        space for IBM VoiceType Dictation software, 10MB hard disk space
  3523.        for ProNotes Voice Tools, 3.5" floppy, VGA (or compatible), 16MB
  3524.        RAM, IBM VoiceType Dictation adapter, microphone, and speakers.
  3525.        Software: DOS version 6.0 or later, with SHARE.EXE running,
  3526.        Windows 3.1 or later, IBM VoiceType Dictation software, any
  3527.        programming environment or system compatible with Visual Basic or
  3528.        OLE Custom Controls.
  3529.      * Price: Unknown
  3530.      * Contact: Pronotes, Inc.
  3531.        1546 Magee Avenue, Philadelphia, PA 19149, USA
  3532.        Ph: 800-70-NOTES or +1-215-533-8569, Fax: +1-215-533-1276
  3533.        Email: proinfo@pronotes.com
  3534.        WWW: http://www.pronotes.com/
  3535.  
  3536.  
  3537.  
  3538. PureSpeech 2.0 Recognition Engine
  3539.  
  3540.      * Platform: Windows 3.1, Windows 95, Unix, Dialogic Antares DSP
  3541.      * Description: Speaker-independent, continuous speech, large active
  3542.        vocabulary speech recognition engine for American English, UK
  3543.        English, French, German and Spanish. Permits on-the-fly additions
  3544.        to the vocabulary using phonetic models and telephone or wideband
  3545.        microphone input. Flexible grammar, natural language processing,
  3546.        discourse models. Software only with a small RAM/CPU footprint.
  3547.        Can be used as a voice user interfaces (VUI's) for PC software
  3548.        applications. Can also be used for high-volume call center
  3549.        telephony, especially in banks, finance and other specialized
  3550.        applications.
  3551.        A toolkit for the Dialogic Antares is available.
  3552.      * Availability: PureSpeech is not available as a stand-alone
  3553.        product. It is available embedded in Windows-based software or as
  3554.        a toolkit.
  3555.      * Contact: PureSpeech, Inc
  3556.        100 Cambridge Park Drive, Cambridge, MA 02140, USA
  3557.        Ph: (617) 441-0000 Fax: (617) 441-0001
  3558.        Email: amy@speech.com
  3559.        WWW: http://www.speech.com/
  3560.  
  3561.  
  3562.  
  3563. recnet
  3564.  
  3565.      * Platform: UNIX
  3566.      * Description: Speech recognition for the speaker independent TIMIT
  3567.        and Resource Management tasks. It uses recurrent networks to
  3568.        estimate phone probabilities and Markov models to find the most
  3569.        probable sequence of phones or words. The system is a snapshot of
  3570.        evolving research code. There is no documentation other than
  3571.        published research papers. The components are:
  3572.           + A preprocessor which implements many standard and many non-
  3573.             standard front end processing techniques.
  3574.           + A recurrent net recogniser and parameter files
  3575.           + Two Markov model based recognisers, one for phone recognition
  3576.             and one for word recognition
  3577.           + A dynamic programming scoring package. The complete system
  3578.             performs competatively.
  3579.      * Cost: Free
  3580.      * Requirements: TIMIT and Resource Management databases
  3581.      * Contact: Tony Robinson: _ajr@eng.cam.ac.uk_
  3582.      * Availability: by anonymous ftp
  3583.  
  3584.                 ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/recognition/r
  3585.                 ecnet-1.3.tar.Z 
  3586.  
  3587.  
  3588.  
  3589. Sensory Inc. Integrated Circuits
  3590.  
  3591.      * Platform: Integrated circuits
  3592.      * Description: Sensory's low cost high quality Interactive Speech
  3593.        line of speech recognition IC's are designed for consumer
  3594.        telephony products, portable consumer electronics, and other
  3595.        consumer applications. Technologies available include speech
  3596.        recognition (speaker-independent and speaker-dependent), speaker
  3597.        verification, speech/music synthesis, digital record/playback, and
  3598.        general product control on one chip. Development tools and
  3599.        demonstration units are available. Detailed product information on
  3600.        the Interactive Speech chips is available from the Sensory
  3601.        Circuits WWW site.
  3602.      * Contact: Sensory, Inc.
  3603.        521 E. Weddell Drive, Sunnyvale, CA 94089
  3604.        Ph: +1-408-744-9000, Fax: +1-408-744-1299
  3605.        Email: Sales@SensoryInc.com
  3606.        WWW: http://www.sensoryinc.com/
  3607.  
  3608.  
  3609.  
  3610. Simon Says (NeXT)
  3611.  
  3612.      * Platform: NeXT
  3613.      * Description: Provides the ability to link commands to spoken
  3614.        phrases.
  3615.      * Availability:By anonymous ftp.
  3616.        Simon Says demo
  3617.        ftp://ftp.informatik.uni-muenchen.de/pub/comp/platforms/next/Audio
  3618.        /audio-apps/SimonSaysDemo.1.5.1.N.b.tar.gz
  3619.        Readme file
  3620.        ftp://ftp.informatik.uni-muenchen.de/pub/comp/platforms/next/Audio
  3621.        /audio-apps/SimonSaysDemo.1.5.1.README
  3622.      * Contact: Metrosoft
  3623.        710 13th Street, Suite 310 X, San Diego, California 92101
  3624.        Ph: 619.488.9411 Fax: 619.488.3045
  3625.        Email: info@metrosoft.com [NeXTmail welcome]
  3626.  
  3627.  
  3628.  
  3629. smARTspeak from Advanced Recognition Technologies, Inc.
  3630.  
  3631.      * Platform: Windows, Windows 95, DOS, and General Magic
  3632.        It also works on the following Processors/Microcontollers: Intel's
  3633.        80 x 86, Intel's 8031, 8051, Motorola's 68000, and Hitachi's SH1,
  3634.        SH3, SH8.
  3635.      * Description: smARTspeak is suited to voice command and control
  3636.        applications, such as voice dialing in cellular and desktop
  3637.        telephones, or voice command operation in computers and multimedia
  3638.        products. It uses a compact (10KB size on 16 bit machines), fast,
  3639.        user dependent recognition engine.
  3640.        smARTspeak can recognize any language in any accent.
  3641.        ART recently completed a Software Developer Kit (SDK) for
  3642.        smARTspeak, running under Windows 3.1 or higher which allows the
  3643.        voice recognition engine to be used within Windows Applications.
  3644.        More detailed information on smARTspeak and the SDK is available
  3645.        on the ART WWW pages.
  3646.      * Availability: Currently liscensed to other equipment manufacturers
  3647.        (OEMs), system integraters, software, and application developers,
  3648.        and value added resellers (VARs) who port are technology into
  3649.        their product.
  3650.      * Contact: Advanced Recognition Technologies, Inc.
  3651.        International Office:
  3652.        43 Brodezky Street, POB 39918, 61398 Tel Aviv, lsrael
  3653.        Ph: 972-3-642-7242, Fax: 972-3-642-5887
  3654.        Email: 100274.3223@Compuserve.com
  3655.        WWW: http://www.artcomp.com/
  3656.        US Office:
  3657.        9574 Topanga Canyon Blvd. Chatsworth, CA 91311, USA
  3658.        Ph: 818-678-3999, Fax: 8181-678-3994
  3659.        WWW: http://www.artcomp.com/
  3660.  
  3661.  
  3662.  
  3663. Speech Commander - Verbex Voice Systems
  3664.  
  3665.      * Platform: Various: external hardware with serial port connection
  3666.      * Description: A hand-held (portable) device about the size of a
  3667.        paperback book which provides speaker-dependent continuous speech
  3668.        recognition. The active vocabulary is dependent on the model
  3669.        chosen and can vary from 300 to 10,000 active words. The device
  3670.        connects through a serial port, so it can be connected to a wide
  3671.        range of computers. It comes with a battery pack.
  3672.      * Contact: Verbex Voice Systems
  3673.        1090 King Georges Post Rd., Bldg 107,
  3674.        Edison NJ 08837, USA
  3675.        Ph: (908) 225-5225, Fax: (908) 225-7764
  3676.        Email: sales@listen.verbex.com
  3677.        WWW: http://www.verbex.com/
  3678.  
  3679.  
  3680.  
  3681. 'Speech Recognition Expert' Toolkit for Windows
  3682.  
  3683.      * Description: Provides an object-oriented development tool designed
  3684.        to rapidly build speech enabled applications without writting
  3685.        source code. Currently supports IBM's VoiceType Application
  3686.        Factory. Future versions to support other platforms. Includes
  3687.        BlackBox library and Custom Grammar Tools.
  3688.      * Requirements: Layout for Windows from Objects, Inc.
  3689.      * Price: $US349 + Shipping/Handling
  3690.      * Contact: Speech Technologies, Inc.
  3691.        P.O. Box 3905
  3692.        Naperville, IL 60567-3905
  3693.        CompuServe @102147,3521
  3694.        Ph: (708)983-7634
  3695.  
  3696.  
  3697.  
  3698. Visual Voice from Stylus Innovation
  3699.  
  3700.      * Platform: Microsoft Windows
  3701.      * Description: Visual Voice is a toolkit for building Windows-based
  3702.        voice processing and telephony applications including interactive
  3703.        voice response (e.g. touch-tone banking), fax-on-demand, and voice
  3704.        mail. Visual Voice can be used to add voice recognition to your
  3705.        telephony applications.
  3706.        Voice Recognition (VR) Support for Visual Voice is exposed as a
  3707.        standard VBX control and provides one or more voice recognition
  3708.        "resources" to your application. Applications can dynamically
  3709.        assign resources across several voice lines. Voice recognition is
  3710.        either "discrete" or "continuous". Discrete recognition is
  3711.        slightly more accurate and requires the speaker to pause briefly
  3712.        between words. Continuous recognition provides a natural way to
  3713.        enter information by speaking without pauses. Three configurations
  3714.        are supported:
  3715.  
  3716.         Software-Only Solution
  3717.                 The software only solution uses Telaccount's SpeechEasy
  3718.                 technology for discrete recognition using your PC's CPU.
  3719.                 A vocabulary is included with digits, basic command words
  3720.                 and more.
  3721.  
  3722.         Hardware-Assisted Solution with Dialogic AEB boards
  3723.                 Discrete voice recognition in over 25 languages using
  3724.                 Dialogic D/41D voice boards and the Dialogic VR/40 board.
  3725.                 Vocabularies are included with digits, basic command
  3726.                 words, voice mail vocabulary and more.
  3727.  
  3728.         Hardware-Assisted Solution with Dialogic PEB boards.
  3729.                 Use the VR control with any Dialogic PEB-based voice
  3730.                 board, such as the D/12x or D/24x, to access voice
  3731.                 recognition resources from your phone lines. This
  3732.                 requires a Dialogic VRP board with either 1 to 4 VRM/40
  3733.                 modules (4 channel discrete voice recognition modules)
  3734.                 and/or 1 to 4 VRM/2C modules (2 channel continuous voice
  3735.                 recognition modules). You can have up to 4 modules on
  3736.                 each VRP: 4 VRM/40s for 16 channels of discrete voice
  3737.                 recognition; 4 VRM/2Cs for 8 channels of continuous
  3738.                 recognition; or a combination. Over 25 languages
  3739.                 supported. Includes vocabularies as described above.
  3740.  
  3741.      * Pricing: Unknown
  3742.      * Availability: From Stylus Innovations Inc. or from the
  3743.        distributors listed on the Stylus WWW pages.
  3744.      * Misc: More detailed technical information, slide show
  3745.        demonstration software is available on the Stylus home page.
  3746.      * Contact: Stylus Innovation Inc.
  3747.        One Kendall Square, Building 300, Cambridge, MA 02139
  3748.        Ph: (617) 621 9545, Fax: (617) 621 7862
  3749.        WWW: http://www.stylus.com/
  3750.        Compuserve forum: GO STYLUS
  3751.        Email: info@stylus.com
  3752.  
  3753.  
  3754.  
  3755. Voice Command Line Interface
  3756.  
  3757.      * Platform: Amiga
  3758.      * Description: VCLI will execute CLI commands, ARexx commands, or
  3759.        ARexx scripts by voice command through your audio digitizer. VCLI
  3760.        allows you to launch multiple applications or control any program
  3761.        with an ARexx capability entirely by spoken voice command. VCLI is
  3762.        fully multitasking and will run in the background, continuously
  3763.        listening for your voice commands even while other programs are
  3764.        running. Documentation is provided in AmigaGuide format. VCLI 6.0
  3765.        runs under either Amiga DOS 2.0 or 3.0.
  3766.      * Requirements: Supports the DSS8, PerfectSound 3, Sound Master,
  3767.        Sound Magic, and Generic audio digitizers.
  3768.      * Availability: by ftp from wuarchive.wustl.edu in the file
  3769.        systems/amiga/incoming/audio/VCLI60.lha and from
  3770.        amiga.physik.unizh.ch as the file pub/aminet/util/misc/VCLI60.lha
  3771.      * Contact: Author's email is RHorne@cup.portal.com
  3772.  
  3773.  
  3774.  
  3775. Voice Control Systems Continuous Speech Recognition
  3776.  
  3777.      * Description: Voice Control Systems (VCS) continuous speech
  3778.        recognition is a proprietary phonetic recognizer based on
  3779.        technology developed at VCS over the last 17 years. It is robust
  3780.        for applications such as the "hands-free" automotive environment
  3781.        or telephone networks, both wireless and wireline. VCS speech
  3782.        recognition is used by many developers and manufacturers in
  3783.        telecommunications. VCS technology is a software-based capability
  3784.        which VCS has currently developed for a limited number of
  3785.        processing environments. VCS offers "off-the-shelf" capabilities
  3786.        for the TI-C3X and C4X DSPs with other hardware platform support
  3787.        planned for the future. As a benchmark, today's VCS continuous
  3788.        technology requires about 1/2 of a 33Mhz TMS320C31. VCS continuous
  3789.        technology is available in cellular and wireline based libraries
  3790.        for continuous digit input in approximately 15 languages. VCS
  3791.        continuous recognition is a modified HMM decision strategy built
  3792.        upon the foundation of VCS phonetic "front end".
  3793.      * Availability: VCS continuous technology is available today in
  3794.        software form from VCS or implemented in hardware or speech
  3795.        systems from VCS distributors including Dialogic Corporation,
  3796.        Brite Voice, Intervoice, Periphonics, and Syntellect.
  3797.      * Cost: Software royalties are volume based and range from per unit
  3798.        costs of $500 per recognizer to less than $5 in large quantities.
  3799.      * See also: the VCS Phonetic Dictionary Recognizer and VCS Isolated
  3800.        Word Speech Recognition below, and the VCS 2030 & 2060 Voice
  3801.        Dialers.
  3802.      * Contact: Voice Control Systems, Inc.
  3803.        14140 Midway Rd., Dallas, Tx. 75244, USA
  3804.        Ph: +1-214-386-0300, Fax: +1-214-386-5555
  3805.        Email: sales@vcsi.com
  3806.        WWW: http://www.voicecontrol.com/
  3807.  
  3808. Voice Control Systems Phonetic Dictionary Recognizer
  3809.  
  3810.      * Description: This recognizer is based upon a HMM type recognition
  3811.        strategy coupled with the VCS "front end" (feature extraction
  3812.        software). The HMM modeling is based upon the basic phonetic
  3813.        building blocks in each language. In American English this is
  3814.        approximately 43 units. The recognition vocabulary is built up by
  3815.        combining these units into word models. By building the words in
  3816.        this way new recognition vocabularies may be constructed. The
  3817.        phonetic assembly can also be used for "word spotting" recognition
  3818.        libraries.
  3819.      * Platform: This VCS recognition software runs on the TI TMS320C30
  3820.        DSP. Two recognizers can operate on a single 55mhz C30. Currently
  3821.        the software may be purchased as an Enhanced Technology from VCS
  3822.        to run on the Dialogic VR/160p speech recognizer board. The
  3823.        hardware is purchased from Dialogic, with the "Enhanced" software
  3824.        purchased from VCS. Up to four phonetic recognizers can run on a
  3825.        single 160; one per VRM2C (C30-33mhz DSP) daughtercard.
  3826.      * Note: This recognizer is in its late "beta" stage of development
  3827.        and is available for U.S. English vocabularies. Other languages
  3828.        are presently under development.
  3829.      * Price: VCS software is priced at $350 per recognizer for unit
  3830.        quantities with volume discounts available.
  3831.      * See also: VCS Continuous Recognition above, VCS Isolated Word
  3832.        Speech Recognition below, and the VCS 2030 & 2060 Voice Dialers.
  3833.      * Contact: Voice Control Systems, Inc.
  3834.        14140 Midway Rd., Dallas, Tx. 75244, USA
  3835.        Ph: +1-214-386-0300, Fax: +1-214-386-5555
  3836.        Email: sales@vcsi.com
  3837.        WWW: http://www.voicecontrol.com/
  3838.  
  3839. Voice Control Systems Isolated Word Speech Recognition
  3840.  
  3841.      * Description: Voice Control Systems (VCS) isolated word recognition
  3842.        using VCS phonetic recognizer technology. It is robust in
  3843.        demanding environments such as the "hands-free" automotive
  3844.        environment, telephone networks, wireless or wireline.
  3845.        Capabilities include speaker-independent, speaker-dependent and
  3846.        speaker-adaptive recognition. Libraries are available for 45+
  3847.        languages and custom vocabulary development services are
  3848.        available. The technology is suited for many applications
  3849.        including:
  3850.           + Desktop computing: such as keyboard accelerators
  3851.             orinteractive multimedia.
  3852.           + Network telephony: such as automating operator functions or
  3853.             voice dialing.
  3854.           + Computer telephony: such as remote access to a personal
  3855.             computers.
  3856.           + Automotive accessory control: such as voice activated
  3857.             cellular phones or other automotive accessories.
  3858.           + Consumer electronics: such as voice controllers for video
  3859.             games or VCRs and televisions.
  3860.      * Platform: Include Intel-X86, TI-C5X, C3X, C4X and C2X, OKI 6679,
  3861.        and NEC-V20 and V30, and can operate on 16 bit microcontrollers.
  3862.        As a benchmark, 8 recognizers can run on an Intel 486-33 DX.
  3863.      * Availability: The technology is available under software licenses
  3864.        direct from VCS or by purchasing hardware from an OEM. VCS OEMs
  3865.        include: Dialogic, Oki Semiconductor, Intervoice, Periphonics,
  3866.        etc.
  3867.      * Cost: VCS isolated word recognition software is available under a
  3868.        volume pricing license agreement. Small quantity royalties are in
  3869.        the $500.00 per recognizer range while large (millions) quantity
  3870.        royalties are less than $1.00 per recognizer.
  3871.      * See also: VCS Continuous Speech Recognition and VCS Phonetic
  3872.        Dictionary Recognizer above, and the VCS 2030 & 2060 Voice
  3873.        Dialers.
  3874.      * Contact: Voice Control Systems, Inc.
  3875.        14140 Midway Rd., Dallas, Tx. 75244, USA
  3876.        Ph: +1-214-386-0300, Fax: +1-214-386-5555
  3877.        Email: sales@vcsi.com
  3878.        WWW: http://www.voicecontrol.com/
  3879.  
  3880.  
  3881.  
  3882. Visus SpeechKit
  3883.  
  3884.      * Platform: NeXT
  3885.      * Description: SpeechKit is based on SPHINX, a speaker-independent,
  3886.        1000 word or so, continuous speech recognition system which allows
  3887.        you to incorporate speech recognition into your applications. You
  3888.        can design your vocabulary and grammars.
  3889.      * Contact: Visus - no address or phone provided. A possible contact
  3890.        is Robert Brennan at Carnegie Mellon University. email:
  3891.        Robert_Brennan@cmu.edu
  3892.  
  3893.  
  3894.  
  3895. VCS 2060 Voice Dialer
  3896.  
  3897. VCS 2030 Voice Dialer
  3898.  
  3899.      * Platform: Stand-alone hardware, TMS320C5X based with VCS phonetic
  3900.        speech recognition and CELP speech compression.
  3901.      * Description: The VCS 2060 is a telephone dialing system which
  3902.        recognizes 50 names - and speed dials the associated telephone
  3903.        number. The VCS 2030 has 20 memories. Users use
  3904.        speaker-independent recognition to select the "call", "program",
  3905.        or "list" menu, then place a call, enroll a new memory, or listen
  3906.        to playback of entries in the phonebook. Enrollment is simple and
  3907.        includes a "name tag" enrollment pass so that when one selects an
  3908.        entry to call, the selection is confirmed by repeating the
  3909.        memory's associated name tag, e.g. "calling Pete". The system uses
  3910.        both speaker-independent and speaker-dependent technology from
  3911.        Voice Control Systems, Inc.
  3912.      * Installation: The VCS 2060 can be installed in series (RJ-11) with
  3913.        one phone for single phone operation or installed in parallel
  3914.        (RJ-31) to provide voice dialing from every phone in a house.
  3915.      * Cost: Standard retail prices:
  3916.           + VCS 2030 Voice Dialer - $269.00
  3917.           + VCS 2060 Voice Dialer - $299.00
  3918.      * Availability: From catalogs or direct from Voice Control Systems.
  3919.        Voice Control Systems
  3920.        14140 Midway Rd., Dallas, Tx. 75225, USA
  3921.        Ph: 800-VCS-7525, Fax: +1-214-386-5555
  3922.        Email: sales@vcsi.com
  3923.        WWW: http://www.voicecontrol.com/
  3924.  
  3925.  
  3926.  
  3927. Voice-Trek 2.0
  3928.  
  3929.      * Platform: Unknown.
  3930.      * Description: VoiceTrek is primarily used by the United States
  3931.        Postal Service to sort mail. Tardis Technology Inc. was created to
  3932.        develop and market applications that utilize speech recognition.
  3933.        They do consulting work as well as turnkey systems.
  3934.      * Contact: Tardis Technology Inc., Voice Recognition Div.
  3935.        6444 E. Spring St., #286, Long Beach, CA 90815-1500, USA
  3936.        Phone: +1-310-497-0077, Fax: +1-310-497-0080
  3937.  
  3938.  
  3939.  
  3940. VoiceAssist for Windows from Creative Labs, Inc.
  3941.  
  3942.      * Platform: Windows
  3943.      * Description: Seeking a description.
  3944.      * Availability: VoiceAssist preview software is available from the
  3945.        Creative Labs VoiceAssist home page.
  3946.      * Contact: Creative Labs, Inc.
  3947.        Ph: 1-800-998-1000 (Sales)
  3948.        Ph: 1-800-998-5227 (Product info and dealer referrals)
  3949.        CompuServe: support forum: GO BLASTER
  3950.        WWW: http://www.creaf.com/
  3951.  
  3952.  
  3953.  
  3954. VoiceServer for Windows
  3955.  
  3956.      * Platform: Windows
  3957.      * Description: Speaker dependent, each with an independent
  3958.        directory. Isolated words. Up to 1000 words/user, 300
  3959.        words/window. 1 word occupies 2Kb on hard disk. Can be used to
  3960.        control Windows applications by issuing voice commands instead of
  3961.        menu selection.
  3962.      * Rough Cost: 292 Pounds(UK)
  3963.      * Requirements: None
  3964.      * Misc: Price includes a half-sized AT voice card (including a DSP),
  3965.        software, documentation & a microphone (attachable to keyboard or
  3966.        speaker). A light-weight high-spec headset is an optional extra.
  3967.      * Contact:
  3968.  
  3969.     Mark Redwood
  3970.     Applied Voice Technologies
  3971.     26 Danbury Street, Islington,
  3972.     London, UK, N1 8JU
  3973.     Ph: + 44 71 454 1224 : Fax: + 44 71 454 1225
  3974.  
  3975.  
  3976.  
  3977. Voicetek Corp.
  3978.  
  3979.      * Platform: Unknown.
  3980.      * Description:Voicetek Corporation provides voice processing
  3981.        solutions, training and consulting services and an
  3982.        object-oriented, graphical Generations Platform for development of
  3983.        integrated computer telephony systems.
  3984.      * Contact: Voicetek Corporation
  3985.        19 Alpha Road, Chelmsford, MA 01824, USA
  3986.        Ph: +1-508-250-9393, Fax: +1-508-250-9378
  3987.        WWW: http://www.voicetek.com/
  3988.  
  3989.  
  3990.  
  3991. Votan VPC2100 Voice Card and VSP 1010 Speech Processor
  3992.  
  3993.      * Platform: DOS
  3994.      * VPC2100 Voice Card: a hardware and software system based on the
  3995.        TMS320C10. providing continuous speech recognition. The VPC2100
  3996.        consists of a circuit board, microphone, speaker, software, and
  3997.        documentation. It is designed to add voice I/O and telephone
  3998.        management capabilities to the PC/AT and compatibles. Features:
  3999.           + Voice store-and-forward at 4- to 16.4-Kb/s speed
  4000.           + Speaker-independent speech recognition (0-9, YES, NO)
  4001.           + Continuous speaker-dependent speech recognition
  4002.           + Telephone interface, pulse or tone dialing, call progress,
  4003.             and DTMF
  4004.           + Software for development, voice mail, telephone management,
  4005.             and VoiceKey
  4006.           + High-level applications-generator software
  4007.      * Votan VSP 1010 speech-processor board: can service a single voice
  4008.        channel, providing recognition, voice output, and telephone
  4009.        interfacing. Digital signal processing is performed by a TMS320
  4010.        integrated circuit.
  4011.      * Costs: Unknown
  4012.      * WWW: http://www.ti.com/sc/docs/dsps/develop/3rdparty/vot.htm
  4013.      * Contact: Votan Division, MOSCOM Corporation
  4014.        6920 Koll Center Parkway, Suite 214, Pleasanton, CA 94566, USA
  4015.        Ph: +1-510-426-5600, Fax: +1-510-426-6767
  4016.  
  4017.  
  4018.  
  4019. Voice Processing Corporation Speech Recognition Product Line
  4020.  
  4021.      * Platform: Unknown.
  4022.      * Description: Voice Processing Corporation (VPC) supplies automated
  4023.        speech recognition systems. VPC's products are used in the
  4024.        telecommunications, cellular and personal computer markets to
  4025.        enable computers to understand human speech. The company's VPro
  4026.        product line is sold to original equipment manufacturers (OEMs),
  4027.        value added resellers (VARs), system integrators and application
  4028.        developers. VPC's speech recognition systems are currently used in
  4029.        applications such as voice mail, voice activated dialing,
  4030.        interactive voice response, and command and control of personal
  4031.        computers.
  4032.        The following are descriptions of the Voice Processing
  4033.        Corporation's VPro Product Line: VProContinuous, VPro/XD, VPro/RT,
  4034.        VProCel, VProSpeller, VProPRL, VPro hardware platforms, and the
  4035.        application Osprey.
  4036.        More information is available on these products at the VPC WWW
  4037.        site: http://www.vpro.com/
  4038.      * VProContinuous(TM) is a speaker-independent, continuous digit
  4039.        recognizer. It recognizes digit strings spoken in a continuous
  4040.        manner, by any caller, without unnatural beeps or pauses.
  4041.        VProContinuous uses out-of-vocabulary rejection and word spotting
  4042.        technologies to reject extraneous words and phrases often spoken
  4043.        by callers. The VProContinuous vocabulary consists of the words
  4044.        "zero" through "nine," "yes," "no," and "oh." The product is
  4045.        language-independent. American English, Australian English,
  4046.        Brazilian Portuguese, Canadian French, Castilian Spanish, French,
  4047.        German, Italian, Mexican Spanish, Portuguese, Swiss German and
  4048.        U.K. English versions are available.
  4049.      * VPro/XD(TM) is a discrete or multiword speech recognizer for
  4050.        extra-demanding applications and/or vocabularies. This robust
  4051.        discrete product recognizes isolated discrete utterances (words or
  4052.        very short phrases). VPro/XD utilizes proprietary
  4053.        out-of-vocabulary rejection and word-spotting technologies.
  4054.        VPro/XD is speaker-independent and includes Talkover capability
  4055.        allowing speech-interrupt over prompts. Pre-trained vocabulary
  4056.        libraries are available in American English, Australian English,
  4057.        Brazilian Portuguese, Canadian French, Castilian Spanish, Central
  4058.        American Spanish, German, Italian, Mandarin Chinese, Mexican
  4059.        Spanish, Portuguese, Swiss German and UK English. Pre-trained
  4060.        vocabularies consisting of voice mail words, voice dialing words,
  4061.        call control words, banking, and emergency words are available in
  4062.        American English (both cellular and land-line).
  4063.      * VPro/RT(TM) is a discrete speech recognizer for rapid training of
  4064.        vocabularies in the field. This robust discrete product recognizes
  4065.        isolated discrete utterances. Application designers and end-users
  4066.        define the vocabulary of their choice and train the system in
  4067.        real-time either prior to system start-up, or adapting on-the-fly
  4068.        while the system is running live. Vocabularies can be subset, and
  4069.        applications involving thousands of words can be developed
  4070.        quickly. VPro/RT, which also supports Talkover, is suited to
  4071.        speaker-dependent recognition tasks, such as the personal
  4072.        directory of names in a voice-activated dailing application.
  4073.        VPro/RT is also good for applications that require
  4074.        speaker-independent vocabularies to be developed quickly in the
  4075.        field or those that require many vocabularies. VPro/RT can also be
  4076.        used as a tool for quick prototyping of applications.
  4077.      * VProCel consists of speaker-independent VProContinuous, VPro/XD
  4078.        and speaker-dependent VPro/RT specifically tuned for the cellular
  4079.        environment. The speaker-dependent discrete feature of VProCel
  4080.        allows for a user-defined 20-word personal directory, with a
  4081.        one-pass enrollment whereby users need only speak their chosen
  4082.        commands once. In addition, cellular-ready VPro/XD vocabularies
  4083.        consisting of voice-activated dialing command words are also
  4084.        available. VProCel is suited to voice-activated dialing
  4085.        applications using either digit strings or a listing of words in a
  4086.        personal directory.
  4087.      * VProSpeller is a recognizer that can determine which name or word
  4088.        is being spelled by a caller. Users may spell a string of letters
  4089.        (up to 32 letters) in an uninterrupted manner (without prompts or
  4090.        beeps between each letter). VProSpeller can recognize confusable
  4091.        letters by conducting an automated search of a database of words
  4092.        maintained by the application for the best candidates to match.
  4093.      * VProPRL Designed for customers who wish to enable VPC speech
  4094.        recognition technologies on platforms other than those supported
  4095.        by VPro hardware, the VProPRL is a portable recognizer library of
  4096.        VProContinuous, VPro/XD and VPro/RT, which can be embedded into a
  4097.        wide variety of hardware platforms. It consists of a library of
  4098.        object modules which can be linked with a user application or
  4099.        task.
  4100.      * VPro Hardware Platforms: VPro-42, VPro-84, VPro-88 : The VPro
  4101.        platforms are ISA compliant PC/AT boards. Each supports four to
  4102.        eight Virtual Speech Processors (VSPs). Each VSP, depending on
  4103.        load factors, can handle multiple telephone lines. Application and
  4104.        host computers communicate with each of the VSPs as separate
  4105.        autonomous units. VPro platforms use Texas Instruments TMS320C31
  4106.        microprocessors which provide up to 133 MFLOPS of compute power.
  4107.        The platforms can have up to 8 megabytes of memory shared among
  4108.        all processors. In addition, each processor has 512K bytes of
  4109.        local memory. Both the PEB and MVIP PCM audio buses are supported
  4110.        by all VPro platforms.
  4111.      * Osprey is a call management software application that performs the
  4112.        kinds of telephone related activities typically done by a personal
  4113.        assistant, such as answering the phone, screening callers, routing
  4114.        calls, and taking and delivering messages. It is an automated
  4115.        phone attendant.
  4116.      * Price and availability: Contact Voice Processing Corporation
  4117.      * Contact: Kelli V. Smith
  4118.  
  4119.     Voice Processing Corporation
  4120.     1 Main Street, Cambridge, MA, 02142 USA
  4121.     Ph: (617)494-0100 Fax: (617)494-4970
  4122.     e-mail: KSmith@vpro.com
  4123.     WWW: http://www.vpro.com/
  4124.  
  4125.  
  4126.  
  4127. Whisper
  4128.  
  4129.    See the new page for Microsoft speech recognition software.
  4130.      * Platform: Windows 95 and Windows NT 4.0
  4131.      * Description: Command and control recognition.
  4132.  
  4133.  
  4134.  
  4135. WildCard Speech Products
  4136.  
  4137.      * Platform: Windows 3.1 and Windows 95
  4138.      * OfficeTalk for Windows: provides voice commands for dictation,
  4139.        navigation, command and control, and formatting for business uses
  4140.        of computers. Provides user voice access to a wide variety of
  4141.        software applications in office suites from Microsoft,
  4142.        Novell/WordPerfect, and Lotus. More information on the WildCard
  4143.        OfficeTalk page.
  4144.      * LawTalk for Windows: adds features and interfaces that meet the
  4145.        specific needs of legal users. More information on the WildCard
  4146.        LawTalk page.
  4147.      * VoiceCompanion for the Internet: Surf the net using voice
  4148.        commands. Controls browsers like Netscape and Microsoft Explorer.
  4149.        More information on the VoiceCompanion web page.
  4150.      * VoiceCompanion - RemoteAccess: Over the telephone remote access to
  4151.        your desktop PC, for voicemail, FAX forwarding and address book
  4152.        information. More information on the VoiceCompanion web page.
  4153.      * Availability: WildCard Technologies Inc.
  4154.        180 West Beaver Creek Road, Richmond Hill, Ontario, Canada L4B 1B4
  4155.  
  4156.        Phone: (905) 731-6444, Fax: (905) 731-7017
  4157.        Email: sales@wildcardtech.com
  4158.        WWW: http://www.wildcardtech.com/
  4159.  
  4160.  
  4161. ___________________________________________________________________________
  4162.  
  4163.       Q6.6: Speaker Recognition (Verification and Identification)
  4164.  
  4165.      * Introduction
  4166.      * In the FAQ
  4167.      * On the WWW
  4168.  
  4169.   Introduction
  4170.  
  4171.    Speaker recognition is the process of automatically recognizing who is
  4172.    speaking on the basis of individual information included in speech
  4173.    signals. It can be divided into Speaker Identification and Speaker
  4174.    Verification. Speaker identification determines which registered
  4175.    speaker provides a given utterance from amongst a set of known
  4176.    speakers. Speaker verification accepts or rejects the identity claim
  4177.    of a speaker - is the speaker the person they say they are?
  4178.  
  4179.    Speaker recognition technology makes it possible to a the speaker's
  4180.    voice to control access to restricted services, for example, phone
  4181.    access to banking, database services, shopping or voice mail, and
  4182.    access to secure equipment.
  4183.  
  4184.    Both technologies require users to "enroll" in the system, that is, to
  4185.    give examples of their speech to a system so that it can characterise
  4186.    (or learn) their voice patterns.
  4187.  
  4188.   In the FAQ:
  4189.  
  4190.           * ImagineNation: Voice Activated UnLock Technology 
  4191.           * Jialong He's Speaker Recognition (Identification) Tool
  4192.           * Keyware Biometric Security Products
  4193.           * SpeakerKey Voice Verifier from ITT
  4194.           * SpeakEZ Voice Print Speaker Verification
  4195.           * Voice Control Systems: Speaker Verification Technology
  4196.  
  4197.   On the WWW
  4198.  
  4199.     Survey of the State of the Art in Human Language Technology
  4200.           Report edited by Ronald A. Cole et. al. with a section on
  4201.           Speaker Recognition.
  4202.           http://www.cse.ogi.edu/CSLU/HLTsurvey/ch1node47.html
  4203.  
  4204.     Speaker Identification And Verification: LIMSI Report
  4205.           A technical description.
  4206.           http://www.limsi.fr/Recherche/TLP/reco/2pg95-sv/2pg95-sv.html
  4207.  
  4208.     Long Index of References on Automatic Speaker Verification
  4209.           A list of more than 350 papers on speaker verification in text
  4210.           or BibTeX format. Provided by G.Matas.
  4211.           http://sig.enst.fr/~chollet/ForMehdi/SpRecV1.l_ind.html
  4212.  
  4213.     CAVE: Caller Verification in Banking and Telecommunications
  4214.           European consortium developing speaker recognition
  4215.           technologies.
  4216.           http://www.ptt-telecom.nl/cave/
  4217.  
  4218.     Hangai Lab demonstrations of speaker verification and speaker
  4219.           identification.
  4220.           Do it yourself demonstrations:
  4221.           http://miya8f05.ee.kagu.sut.ac.jp/study/speech/speech1.html
  4222.           http://miya8f05.ee.kagu.sut.ac.jp/study/speech/speech2.html
  4223.  
  4224.  
  4225.  
  4226. Voice Activated UnLock Technology (VAULT): ImagineNation
  4227.  
  4228.      * Description: Password-based voice verification technology using a
  4229.        card to store voice-print data. Introductory information and the
  4230.        VAULT FAQ are provided on the ImagineNation WWW pages.
  4231.      * Contact: Imagine
  4232.        PO Box 212, Swansea, MA 02777, USA
  4233.        Ph: +1-508-678-9563
  4234.        Fax: 508-678-1470
  4235.        Email: feedback@ImagineNation.com
  4236.        WWW: http://www.ImagineNation.com/
  4237.  
  4238.  
  4239.  
  4240. Jialong He's Speaker Recognition (Identification) Tool
  4241.  
  4242.      * Platform: SUN SPARC (SunOS), PC (MSDOS)
  4243.      * Description: This package contains a set of speaker recognition
  4244.        research utilities, including Gaussian mixture models, VQ codebook
  4245.        designing program and MLP network. They can also be used as
  4246.        general classifiers. The utilities are divided into the following
  4247.        categories:
  4248.           + Feature extraction and dimensional reduction
  4249.             cepstrum -- extract features from speech sigals (LPCC, MFCC,
  4250.             etc.).
  4251.             search -- select effective features (SFS, SBS method).
  4252.             randline -- randomize the a sequence, auxiliary utility.
  4253.             bin2asc -- binary to ASCII, auxiliary utility.
  4254.           + MLP network
  4255.             mlptrain -- MLP network training program.
  4256.             mlptest -- MLP network test program.
  4257.           + VQ codebook training and test programs
  4258.             lbglvq -- VQ codebook training program.
  4259.             nearest -- VQ codebook test program.
  4260.           + Gaussian mixture model (GMM)
  4261.             gmmtrain -- GMM training program.
  4262.             gmmtest -- GMM test program.
  4263.        Note: this is a research tool not a true speaker recognition
  4264.        system.
  4265.      * Availability: By anonymous ftp:
  4266.  
  4267.         MSDOS Version
  4268.                 UK:
  4269.                 ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/recognition/s
  4270.                 pkrtool.zip
  4271.                 Germany:
  4272.                 ftp://ftp.informatik.uni-ulm.de/pub/NI/jialong/spkrtool.z
  4273.                 ip
  4274.  
  4275.         Sun SPARC version, compiled with GNU C
  4276.                 UK:
  4277.                 ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/recognition/s
  4278.                 pkr_sun_v1.tar.gz
  4279.                 Germany:
  4280.                 ftp://ftp.informatik.uni-ulm.de/pub/NI/jialong/speaker_su
  4281.                 n_v1.tar.gz
  4282.  
  4283.      * See also: Jialong He's Speech Recognition Research Tool
  4284.      * Contact: Jialong He
  4285.        email: jialong@neuro.informatik.uni-ulm.de
  4286.  
  4287.  
  4288.  
  4289. Keyware Biometric Security Products
  4290.  
  4291.      * Description: VoiceGuardian and S2 Security Server provide
  4292.        authentication and access control technologies. An online demo of
  4293.        Voice Guardian is available.
  4294.      * Contact: Keyware Technologies
  4295.        _USA_
  4296.        Keyware Technologies
  4297.        500 West Cummings Park, Suite 3600, Woburn, MA 01801, USA
  4298.        Ph: (617) 933 1311, Fax: (617) 933 1554
  4299.        _Belgium_
  4300.        Keyware Technologies
  4301.        Excelsiorlaan 28-30, 1930 Zaventem, Belgium
  4302.        Ph: 32 2 721 4574, Fax: 32 2 721 5015
  4303.        _Email:_ sales@keywareusa.com
  4304.        _WWW:_ http://www.keywareusa.com/
  4305.  
  4306.  
  4307.  
  4308. SpeakerKey Voice Verifier from ITT
  4309.  
  4310.      * Platform: Windows/Pentium and Solaris/SPARC
  4311.      * Description: SpeakerKey provides over-the-phone voice
  4312.        verification. It is configurable for use in a wide range of
  4313.        applications.
  4314.        SpeakerKey provides a Speaker Verification API (SVAPI).
  4315.        SpeakerKey uses two technologies: (1) speaker-independent digit
  4316.        recognition using hidden Markov models, (2) speaker verification
  4317.        using "Nearest Neighbour Matching with Likelihood Ratio Scoring
  4318.        and cohort speakers."
  4319.        Dr. Joe Campbell maintains a SpeakerKey FAQ on the WWW. It
  4320.        provides a more detailed description of SpeakerKey and discusses
  4321.        several speaker verification issues:
  4322.        http://www.vitro.bloomington.in.us:8080/~BC/REPORTS/SpeakerKeyFAQ.
  4323.        html
  4324.      * Requirements: Minimum 60 MHz Pentium (with sound card) or
  4325.        SPARCstation 5, plus phone line interface devices.
  4326.      * Price: Evaluation kits available from $75. Developer's kits are
  4327.        $1500. Run-time licenses are priced from $600 to $10,000 depending
  4328.        upon the number of user and/or verifications per hour. Application
  4329.        customization is available.
  4330.      * Contact: ITT Industries
  4331.        Fort Wayne, IN, USA
  4332.        Ph: +1-219-487-6321, Fax: +1-219-487-6126
  4333.        Email: speakerkey@itt.com
  4334.  
  4335.  
  4336.  
  4337. SpeakEZ Voice Print Speaker Verification
  4338.  
  4339.      * Description: Designed to prevent cell phone theft and cloning
  4340.        fraud by comparing the cellular caller's statement of a
  4341.        pass-phrase to a stored digital "voice print" of the authorized
  4342.        subscriber. If the caller's voice patterns do not match the stored
  4343.        voice print, service will be denied or the caller will be referred
  4344.        to operator assistance for further validation processing. Features
  4345.        include:
  4346.           + Customer selected password.
  4347.           + Vocabulary and language independent.
  4348.           + No special hardware required by customer.
  4349.           + Multiple delivery options.
  4350.      * Contact: T-NETIX, Inc.
  4351.        6675 South Kenton Street Englewood, CO 80111 USA
  4352.        Phone: (800) 352-8628, (303) 790-9111, Fax: (303) 790-9540
  4353.        WWW: http://www.t-netix.com/
  4354.  
  4355.  
  4356.  
  4357. Voice Control Systems: Speaker Verification Technology
  4358.  
  4359.      * Description: SpeechPrint ID technology provides language
  4360.        independent speaker verification. Features:
  4361.           + Multiple speech input formats
  4362.           + Operates over various microphones or the telephone network
  4363.           + Can can be used in conjunction with discrete and continuous
  4364.             recognition
  4365.           + Robust against background noise and spurious telephone
  4366.             channel noise
  4367.        For more information on features, hardware and software
  4368.        requirements, pricing and availability, contact Voice Control
  4369.        Systems, Inc. or visit their the VCS WWW site or the SpeechPrint
  4370.        ID WWW page.
  4371.      * See also: VCS speech recognition products in Q6.5.
  4372.      * Contact: Voice Control Systems, Inc.
  4373.        14140 Midway Rd., Dallas, Tx. 75244, USA
  4374.        Ph: +1-214-386-0300, Fax: +1-214-386-5555
  4375.        Email: sales@vcsi.com
  4376.        WWW: http://www.voicecontrol.com/
  4377.  
  4378.  
  4379. ___________________________________________________________________________
  4380.  
  4381.                     Q6.7: Integrated Speech Products
  4382.  
  4383.    This section lists those products which integrate different speech
  4384.    technologies into a single user package. For example, speech
  4385.    recognition and speech synthesis can be combined to provide a dialog
  4386.    management system. Strictly speaking, this doesn't really belong under
  4387.    in Section 6 (Speech Recognition) but since these products all include
  4388.    speech recognition, it seems a reasonable place to put it for now!
  4389.  
  4390.   In the FAQ...
  4391.  
  4392.           * SpeechWorksfrom Applied Language Technologies, Inc.
  4393.           * Nortel Speech Technology Products
  4394.  
  4395.  
  4396.  
  4397. SpeechWorksfrom Applied Language Technologies, Inc.
  4398.  
  4399.      * Description: SpeechWorks and companion products provide advanced
  4400.        speech recognition technology for the telephony market.
  4401.        SpeechWorks can be used by developers to "speech-enable" call
  4402.        center, messaging, enhanced services, and other types of
  4403.        applications. The three major system modules - SpeechWorks,
  4404.        DialogModules and SpeechBuilder - are described below. More
  4405.        detailed information is available from the Applied Language
  4406.        Technologies home page.
  4407.        ALTech develops and markets speech understanding software which
  4408.        provides large vocabulary, speaker-independent, phonetic speech
  4409.        recognition. ALTech's software contains a comprehensive set of
  4410.        features for speech-enabling telephone-based transactions and
  4411.        services. SpeechWorks is based on technology licensed from the
  4412.        Spoken Language Systems Group at the Massachusetts Institute of
  4413.        Technology.
  4414.      * SpeechWorks: provides the core speech recognition capabilities.
  4415.        Features include:
  4416.           + Phonetic segment-based, speaker-independent, large
  4417.             vocabulary, continuous speech recognition
  4418.           + Real-time vocabulary generation directly from text
  4419.           + Database integration
  4420.           + "Barge-in" capability
  4421.           + Adaptive channel normalization
  4422.           + "n-best" output and associated confidence scores
  4423.           + Support for multiple languages
  4424.           + Software-only or DSP-based implementations
  4425.           + Support for multiple platforms and operating systems (e.g.,
  4426.             SCO UNIX, WindowsNT, etc.)
  4427.      * DialogModules: manage the "conversation" between the system and
  4428.        the caller within an application. They provide high-level
  4429.        application building blocks which enable developers to quickly and
  4430.        easily add speech interfaces to computer telephony applications.
  4431.        Each DialogModule accomplishes a particular task within an
  4432.        application, ranging from "simple" tasks such as capturing a
  4433.        yes/no response or a phone number, to more complex tasks such as
  4434.        capturing credit card information or name and address information.
  4435.  
  4436.        DialogModules provide "out-of-the-box" functionality. They contain
  4437.        pre-built grammars, user-interface design, internal call flow and
  4438.        error recovery routines, parameters for customization and a set of
  4439.        C++ class libraries and C APIs.
  4440.      * SpeechBuilder: provides tools for customizing the DialogModules
  4441.        and for developing and maintaining applications. A GUI-based
  4442.        Vocabulary Editor provides the ability to generate and maintain
  4443.        vocabulary or word lists. Pronunciations can be generated
  4444.        automatically using the built-in dictionary or can be
  4445.        automatically generated using a set of text-to-phoneme rules.
  4446.      * Product Bundles: are available which combine SpeechWorks and
  4447.        multiple DialogModules into application templates for a set of
  4448.        generic application categories.
  4449.           + SpeechForms SpeechForms provides an interactive method for
  4450.             entering data over the phone, such as ordering products,
  4451.             filling out surveys and completing registration forms.
  4452.             Typical applications include: order entry, reservations,
  4453.             catalog and literature requests, catalog shopping,
  4454.             subscriptions, change of service, claims, credit card
  4455.             activation, home banking, stock transactions, and warranty
  4456.             reservations.
  4457.           + SpeechQuery SpeechQuery is used to deliver information in
  4458.             response to voice requests over the phone, such as airline
  4459.             information, product delivery status and retirement benefit
  4460.             information. Typical applications include: order status,
  4461.             product information, account balance, flight status, movie
  4462.             listings, job listings, stock quotes, guide
  4463.             services,classified ads, claims status, dealer locator
  4464.             services, and technical support.
  4465.           + SpeechAgent SpeechAgent provides a set of modules for
  4466.             automating telephone-based voice messaging applications, such
  4467.             as integrated messaging, single-number services and
  4468.             voice-dialing. Typical applications include: voice messaging,
  4469.             voice dialing, auto attendant, address book access, email
  4470.             access, and scheduling.
  4471.      * Platform: Platforms and Operating systems: ALTech's software can
  4472.        be deployed on industry-standard hardware platforms and operating
  4473.        systems including: Sun SPARC-based systems running SunOS or
  4474.        Solaris, IBM RS/6000s running AIX, HP systems running HP-UX, and
  4475.        486/Pentium-based PCs and servers running Windows, WindowsNT, SCO
  4476.        UNIX, or Solaris. ALTech's systems are designed to run all or some
  4477.        of the software on a digital signal processor.
  4478.      * Availability: contact ALTech for licensing information.
  4479.      * Contact: Applied Language Technologies, Inc.
  4480.        215 First Street, Cambridge, MA 02142
  4481.        Ph: 617-225-0012, Fax: 617-225-0322
  4482.        Email: to Alisa Moyer: moyer@altech.com
  4483.        WWW: http://www.altech.com/
  4484.  
  4485.  
  4486.  
  4487. Nortel Speech Technology Products
  4488.  
  4489.      * Nortel's AudioGram Delivery Service (ADS):
  4490.        When a busy or no answer condition is encountered, an intercept
  4491.        message offers ADS, which provides a service to the calling party
  4492.        by taking a message automatically. ADS records the caller's
  4493.        message and attempts delivery repeatedly if needed until the
  4494.        message is delivered. ADS is comprised of four independent
  4495.        services: 0+, 1+ and Local, Intentional, and Millenium AudioGram.
  4496.        ADS services utilize Nortel's Flexible Voice Recognition (FVR)
  4497.        voice-processing capabilities. ADS features include:
  4498.           + Cost-saving common service platform (NAV)
  4499.           + Builds upon existing network investment in toll
  4500.             infrastructure capabilities of AABS (Automated Alternate
  4501.             Billing Service)
  4502.           + Leverages the capabilities of existing TOPS (Traffic Operator
  4503.             Position System) attendants.
  4504.        More information: is available on the Nortel Multimedia Network
  4505.        Applications WWW page for AudioGram Delivery Service.
  4506.      * Nortel's Voice-Activated Auto Attendant (VAAA):
  4507.        Replaces touch tone menu with easy-to-use voice interface. Geared
  4508.        to businesses and corporations to provide more effective
  4509.        management of incoming customer calls. Residing on the Network
  4510.        Applications Vehicle (NAV) platform, VAAA uses Flexible Vocabulary
  4511.        Recognition (speaker-independent) technology to recognize spoken
  4512.        words, and directs calls accordingly. Other features include:
  4513.           + Cost-saving common service platform (NAV)
  4514.           + Serves DTMF and rotary dial callers.
  4515.           + Handles incoming calls for all corporate users (Centrex, PBX,
  4516.             or key systems)
  4517.        More information: is available on the Nortel Multimedia Network
  4518.        Applications WWW page for Voice-Activated Auto Attendant.
  4519.      * Nortel's Voice-Activated Dialing (VAD):
  4520.        Phoneme-based speech dialing capabilities provided through
  4521.        speaker-trained and speaker-independent technologies. Residing on
  4522.        the Network Applications Vehicle (NAV) platform, VAD enables
  4523.        subscribers to dial using speech, as well as to create and
  4524.        customize personal telephone directories. Other features include:
  4525.           + Cost-saving common service platform (NAV)
  4526.           + Speech playback and Text-to-speech synthesis
  4527.           + Dual Language capability (optional)
  4528.           + Speech Recording
  4529.           + Canadian French speechware (optional, prompts and FVR)
  4530.           + Spanish speechware (optional, prompts and FVR)
  4531.           + 75-name VAD directory size
  4532.           + Word-spotting
  4533.           + DTMF tone detection
  4534.           + Directory sharing
  4535.           + Scalable service deployment
  4536.           + Talk-through
  4537.        More information: is available on the Nortel Multimedia Network
  4538.        Applications WWW page for Voice-Activated Dialing.
  4539.      * Nortel's Voice-Activated Premier Dialing (VAPD):
  4540.        Enables businesses to take advantage of the public network
  4541.        directories to stimulate customer calls. Residing on the Network
  4542.        Applications Vehicle (NAV) platform, VAPD uses Flexible Vocabulary
  4543.        Recognition (speaker-independent) technology to recognize business
  4544.        names, and routes calls to the appropriate business entity. VAPD
  4545.        promotes cost savings by utilizing a common service platform, the
  4546.        Network Applications Vehicle (NAV). It services DTMF callers as
  4547.        well as rotary dialers, and handles incoming calls for all
  4548.        corporate users: Centrex, PBX, and key systems. More information:
  4549.        is available on the Nortel Multimedia Network Applications WWW
  4550.        page for Voice-Activated Premier Dialing.
  4551.      * Platform: This speech-based service operates on the Network
  4552.        Applications Vehicle (NAV) platform. NAV is a multi-application,
  4553.        digital signal processing platform supporting both speech- and
  4554.        display-based applications. The NAV platform provides the speech
  4555.        recognition capabilities and application logic used by NAV
  4556.        features an open, modular hardware architecture and flexible
  4557.        software design. Other features include:
  4558.           + Scalable hardware - from 24 to over 2000 ports per NAV node;
  4559.             1 to 24 independent application shelves per node
  4560.           + Powerful speech processing - speaker-independent and
  4561.             speaker-trained speech processing support
  4562.           + Reliability - N+1, N+M, and 2N redundancy
  4563.           + Central Management - access via graphical user interface to
  4564.             remote connections
  4565.      * See Also: Nortel Feature Planning Guide, reference number
  4566.        50004.11; NAV Applications and Planning Guide, reference number
  4567.        50118.16.
  4568.        Nortel's Multimedia web pages:
  4569.        http://www.nortel.com/entprods/multimedia/
  4570.      * Contact: NORTEL
  4571.        Multimedia Communications Systems Division
  4572.        Multimedia Network Applications
  4573.        1000 Park Forty Plaza
  4574.        Durham, NC 27713 USA
  4575.        Ph: 1-800-4NORTEL
  4576.        WWW: http://www.nortel.com/entprods/multimedia/
  4577.  
  4578.  
  4579. ___________________________________________________________________________
  4580.  
  4581.    Copyright (c) 1993-6 by Andrew Hunt, all rights reserved.
  4582.    This FAQ may be posted to any USENET newsgroup, on-line service, or BBS as
  4583.    long as it is posted in its entirety and includes this copyright statement.
  4584.    This FAQ may not be distributed for financial gain.
  4585.    This FAQ may not be included in any collections or compilations
  4586.    without express permission from the author.
  4587.  
  4588.  
  4589.  
  4590.  ---
  4591.  
  4592. Andrew Hunt
  4593. Speech Applications Group
  4594. Sun Microsystems Laboratories       Ph:  (978) 442-2681
  4595. 2 Elizabeth Drive, MS UCHL03-207    Fax: (978) 250-5067
  4596. Chelmsford, MA 01824, USA           Email: andrew.hunt@east.sun.com
  4597.