home *** CD-ROM | disk | FTP | other *** search
/ Archive Magazine 1996 / ARCHIVE_96.iso / discs / mag_discs / volume_9 / issue_07 / heardnet / StrongSpch < prev    next >
Text File  |  1996-03-02  |  9KB  |  184 lines

  1. <Digital Equipment Corporation>
  2.  
  3. <Digital Semiconductor>
  4. <IMAGE>
  5.  
  6. Speech recognition: A performance boost brings it to the mainstream
  7.  
  8. The Current State of the Market 
  9.  
  10. Until only a short while ago, speech recognition was largely an
  11. immature technology in search of a market. The first systems had to
  12. be trained by the individuals that would use them, and were capable of 
  13. identifying only a limited vocabulary of words. From its humble
  14. beginnings recognizing tens of words for command-and-control
  15. applications, the technology has evolved to enable the understanding
  16. of thousands of words in full-fledged speech dictation systems.
  17. Today, speech recognition is making major strides in its ability to
  18. provide information to consumers, dictation capabilities to physicians
  19. and lawyers, and reduced costs for large companies with extensive
  20. customer service units. 
  21.  
  22. Market research firms predict that the industry, which topped $340
  23. million in 1994, is on its way to $1 billion by the end of the
  24. century. An estimated 30 percent of revenue comes from telephone
  25. applications, while the balance comes from speech-to-text products,
  26. data-entry applications, consumer-market applications and
  27. speech-verification products. Speech recognition is beginning to
  28. arrive on the desktop with increasing frequency. As with most
  29. emerging technologies, the market and the products are diverse and
  30. the landscape can be confusing. 
  31.  
  32. Current Technology and Applications 
  33.  
  34. Telephony and speech-to-text applications are in the greatest demand.
  35. At the high end of telephony applications are products being offered
  36. by Nynex, the baby Bells and other telephone carriers. At a lower 
  37. level are computer telephony applications such as those based on
  38. interactive speech response. The speech-to-text arena includes what
  39. are often referred to as dictation systems- sophisticated systems that 
  40. can recognize more than 50,000 words. Most desktop applications fall
  41. under either command-and-control or data entry product types.
  42. Command-and-control products are basically speech-activated "hot
  43. keys," and data-entry products usually generate forms but are also
  44. based on command-and-control. The technology is basically the same
  45. for all these product types, but it is a technology that lends itself
  46. to great product diversity. 
  47.  
  48. Discrete or Continuous 
  49.  
  50. Further, speech recognition systems can either be discrete, requiring
  51. the user to pause between each utterance ("dial [pause] 5
  52. [pause]...") or continuous, allowing the user to talk
  53. conversationally: "dial 555-1234." Systems based on continuous
  54. recognition are more natural and efficient for users than discrete 
  55. systems, but the speech interpretation and analysis is more complex.
  56. Whether a system is discrete or continuous, there are two types of
  57. recognition: speaker-dependent and speaker-independent. 
  58.  
  59. Speaker Dependent or Independent 
  60.  
  61. Speaker-dependent systems allow the use of specific spoken phrases
  62. that are unique to one individual. The user repeats each phrase two
  63. or three times to create a speech model. 
  64.  
  65. As the name implies, speaker-independent systems understand commands
  66. regardless of the speaker: a system can recognize specific words
  67. without prior training. Word models are created from samples of a 
  68. broad range of people saying the word, or else developed phonetically
  69. using linguistic methods. Word-based systems offer the advantage of
  70. higher recognition accuracy but are less flexible than 
  71. speaker-dependent systems, since many samples must be collected to
  72. build models every time new words are added to the vocabulary. 
  73.  
  74. Future Directions 
  75.  
  76. Several improvements in recognition technology have fueled growth in
  77. speech systems. Better processing and filtering techniques improve
  78. the quality of the speech signal, making recognition more reliable. 
  79. Systems are becoming easier to use and more natural with the
  80. incorporation of full hands-free speech control and other speech
  81. technologies. 
  82.  
  83. There is no disputing the fact that speech recognition and telephony
  84. are coming together, which makes sense given lower pricing and the
  85. technology's virtue as a more natural interface. But it's early in the 
  86. game and many vendors are still working out the applications. At its
  87. best, speech recognition combined with telephony will be the
  88. equivalent of having a personal assistant, especially useful in the
  89. mobile workforce. The proliferation of phones will likely accelerate
  90. the use of speech recognition in customer service applications.
  91. Vendors also peg the millions of cellular phone users as a hot target
  92. market. It would enable them to keep their hands on the wheel instead
  93. of on a handset. 
  94.  
  95. The cost of incorporating speech recognition in PCs is drastically
  96. lower than in the past, which could bring speechenabled systems
  97. closer to corporate usage. Most audio cards using speech recognition 
  98. provide users with a low-cost subset of full-blown large-vocabulary
  99. recognition systems, which usually require a separate add-in card and
  100. cost at least $500. PC companies are also adopting speech recognition 
  101. as the technology becomes easier to implement on standard sound cards. 
  102.  
  103. What the End Users Say 
  104.  
  105. A survey at Spring Comdex '95 revealed that nearly two thirds of
  106. respondents believe that speech recognition will be very valuable to
  107. computing applications over the next three years, while another 27% 
  108. see it as changing the nature of computing. Further, 83% of those
  109. surveyed said that speech recognition will benefit the average
  110. computer user within five years. Half of these people said within two
  111. years is a more likely estimate. 
  112.  
  113. When Link Resources conducted an end user telephone survey in 1994,
  114. over 70% of mobile executives and professionals said that speech
  115. input would be useful to extremely useful, and 75% of mobile
  116. industrial workers indicated the same. 
  117.  
  118. The Final Hurdles 
  119.  
  120. In a June 1995 review of five dictation packages, The Seybold Report
  121. on Desktop Publishing delineated a list of features that could
  122. represent the last hurdles to speech recognition becoming mainstream: 
  123. continuous recognition, both accuracy and "smarts," integration with a
  124. word processor, speech commands for other applications, no hands
  125. required, no training period, easier installation with no new
  126. hardware, less stringent hardware requirements, and affordability. 
  127.  
  128. Further, speech recognition has been limited to desktop systems.
  129. Performance estimates to recognize 5,000 words and phrases indicate
  130. the need for more than 100 Dhrystone2.1 MIPS. This type of 
  131. performance has traditionally been added through the use of digital
  132. signal processors (DSP) and associated controller circuitry, which
  133. add to board space and total system cost. Software- based systems 
  134. such as Dragon Dictate address manufacturing cost considerations but
  135. require that the processor assume more DSP functions, raising again
  136. the need for increased performance. Since speech recognition has been 
  137. identified as a key requirement for mobile workers, being tied to the
  138. desktop represents a significant inhibitor to mainstream adoption. 
  139.  
  140. Digital Semiconductor Offers Enabling Technology 
  141.  
  142. The SA-110, Digital's first StrongARM family member, provides
  143. performance matched only by desktop processors and has power
  144. dissipation levels well below those required for portable
  145. battery-operated handheld products. The SA- 110 is offered in two
  146. speed variants for low power handheld systems. The first operates at
  147. 100MHz with an estimated performance rating of 115 Dhrystone2.1 MIPS
  148. and power dissipation of less than 300 mW. A 160MHz version yields
  149. 185 MIPS at less than 450 mW of power consumption. While clock rate
  150. is a performance enabler, other StrongARM architectural features
  151. provide significant performance improvements, making the SA-110 an
  152. ideal speech recognition enabler for handheld products. 
  153.  
  154. The 0.35-micron CMOS process allows the cost effective addition of
  155. larger caches, enhancing processsor performance without burdening the
  156. system designer with a requirement for expensive external memory. 
  157. This reduces traffic on the bus which improves performance and
  158. minimizes power consumption. Further, the SA-110's high performance
  159. cache architecture and multiplier substantially improve the execution
  160. time of software applications. 
  161.  
  162. The combination of clock rate and architectural features provides
  163. performance improvements enabling computeintensive applications like
  164. Dragon Systems industry leading desktop speech recognition to move to
  165. the portable environment. Digital has already ported its DECtalk
  166. speech synthesis application to the ARM architecture, giving handheld
  167. computing access to hands-free text-to- speech capability. Together 
  168. with speech recognition product refinements, the SA-110's higher
  169. performance can enable more rapid acceptance of speech recognition as
  170. a standard technology for handheld computing. 
  171.  
  172. Note:
  173. Digital, Digital Semiconductor, DECtalk and the Digital logo are all
  174. trademarks of Digital Equipment Corporation. IBM is a registered
  175. trademark of International Business Machines Corporation. Dragon 
  176. Dictate is a trademark of Dragon Systems, Inc. ARM is a registered
  177. trademark, and StrongARM is a trademark of Advanced RISC Machines,
  178. Ltd. February 1996 
  179.  
  180.  
  181. Updated: Monday, February 5, 1996
  182. TM
  183.  
  184.