home *** CD-ROM | disk | FTP | other *** search
/ gondwana.ecr.mu.oz.au/pub/ / Graphics.tar / Graphics / papers / ValerieHall / facial_animation / proposal.txt.Z / proposal.txt
Text File  |  1992-08-05  |  89KB  |  1,846 lines

  1.  
  2.  
  3.  
  4. FACIAL ANIMATION AND SPEECH
  5.         SYNTHESIS
  6.  
  7.      Thesis Proposal
  8.  
  9.            by
  10.  
  11.        Valerie Hall
  12.          875001H
  13.  
  14.         June 1992    
  15.  
  16.        Supervisor:
  17.  
  18.      Andrew Marriott
  19. Lecturer,  School of Comp. Science
  20.  
  21.  
  22.  
  23. Abstract
  24.  
  25. The aim of this thesis is to develop a facial animation system. This system
  26. will be capable of automatically generating an animated sequence when
  27. given a speech track. Currently, synchronising speech and animation is
  28. a time-consuming, manual procedure. Once speech synchronisation is automated,
  29. facial animation systems will be able to be used in many practical situations.
  30. Possible applications include: video-phones, where they will reduce bandwidth
  31. on transmissions; learning aids for people with speech and/or hearing 
  32. disorders; and, a friendly user interface which will be instantly familiar 
  33. to new users.   
  34.  
  35.  
  36. Acknowledgements
  37.  
  38. I'd like to thank the people who have given us advice and assistance 
  39. over the course of this project. First my supervisor, Andrew Marriott, 
  40. of the Curtin Computing Science department, for his support in this 
  41. project and his help with the programs for digitising and displaying the 
  42. face data. We'd also like to thank Bruce Montgomery, from the Curtin 
  43. Surveying and Cartography department, for taking the photos and helping 
  44. with the photogrammetry side of things. Phil Dench and Mike Evans have 
  45. been kind enough to let us use their MOG and triangulation programs. 
  46. Lastly, and most importantly, I'd like to thank all the people who have 
  47. given me information and programs through email and the net.
  48.  
  49.  
  50.  
  51. Introduction
  52.  
  53. Interest in facial animation began with a PhD thesis by Fred Parke in
  54. 1974. He was the first to utilise the power of 3-D computer graphics 
  55. in a way that brought a higher level of control into the act of animating
  56. a face. Predicted applications, at that stage, included computer generated
  57. actors and a valuable research tool for people studying the area of 
  58. human facial expression and non-verbal communication. Interest in facial 
  59. animation has grown rapidly over the last ten years. Now, almost 20 years
  60. after the first system was developed many new applications have been
  61. touted. Among the most feasable are communications, user interfaces and 
  62. aids to predict the effects of surgery. 
  63.  
  64. Background Information
  65.  
  66. This thesis brings together information from various disciplines to produce
  67. an animation/speech synchronisation system. To give an accurate representation
  68. of the human face, the anatomy of the face must be taken into account. This
  69. brings in information from the field of medicine. Theories on human 
  70. expression and methods for recording facial movements have been researched
  71. by psychologists. To automate the synchronisation process by analysing sound, 
  72. ideas from physics and digital signal processing are needed. The
  73. implementation of speech movements can draw information from speech
  74. and hearing researchers and animators. In an effort 
  75. to give their actors more character, most facial animation researchers 
  76. will seek artistic advice from experts in traditional animation. 3D
  77. data for creating the original facial model is recorded using photogrammetric
  78. techniques and advice from people in the surveying and cartography area. An
  79. area undergoing a lot of research over recent years is user
  80. interfaces. One of the main motivators behind the work done in facial
  81. animation is the development of user interfaces. Anyone developing
  82. computer systems should have an interest in improving their user interface. I 
  83. will outline what is applicable to my thesis in these fields of research
  84. as background to facial animation and speech synchronisation.
  85.  
  86. Background - Anatomical 
  87.  
  88. To get a true grasp on what is involved in creating a facial animation 
  89. system, a basic knowledge of human anatomy is required. The main components
  90. of the face are: bone (skull), skin and muscle. The skull consists of fourteen 
  91. major bones, of which the mandible (jaw) is the only free-moving part.
  92. The size and shape of the bones of the skull varies greatly from person
  93. to person. Even so, it is the bone that remains fairly constant throughout
  94. a person's lifetime. The muscle and soft tissues can change radically, but 
  95. the skull's structure determines the shape of the face we recognise
  96. (Waters, 1990 p111).
  97.  
  98. The skin is comprised of two layers, the dermis covered by the
  99. epidermis. The epidermis is a layer of dead skin cells that protects
  100. the dermis from the elements. Under the skin is a layer of subcutaneous 
  101. fat, and under the fat is the fascia. The fascia is a fibrous tissue
  102. that is connected to the muscle and cartilage of the face. The skin contains 
  103. collagen (72%) and elastin (4%) fibres which are responsible for its 
  104. elasticity (Terzopoulos & Waters, 1990). Under low forces, the
  105. skin stretches easily. Once the stress passes a certain point, the
  106. fully extended fibres are much more resistant to force. 
  107.  
  108. Skin behaves similarly to a rubber sheet, deforming itself around the
  109. underlying structure of the face. This can lead to creasing or
  110. wrinkling of the skin. These wrinkles become more noticable with age
  111. as the skin loses elasticity and fatty tissue. The skin is also
  112. affected by gravitational forces, pulling it downwards. The most
  113. influential factors affecting the position of a point on the skin at a 
  114. given time are:
  115.  
  116. The tensile strength of the muscle and skin.
  117. The proximity of the skin to muscle attachments.
  118. The depth of the underlying tissue and the closeness to facial bones.
  119. The elasticity of the tissue.
  120. The interaction of nearby muscles.                     (Waters, 1990)
  121.  
  122.  
  123. The muscles of the face are responsible for facial expression. Most of
  124. muscles in the rest of the body have both ends are attached to bone. The
  125. muscles of the face are more likely to be connected to bone at one end
  126. and to the fascia at the other. There are three types of facial
  127. muscle: linear, sheet and sphincter (Terzopoulos & Waters, 1990). A
  128. mixture of these muscle types co-ordinate to produce each facial 
  129. expression. 
  130.  
  131. The following information on muscles comes from an anatomy text, Spence 
  132. and Mason (1983). 
  133. Linear, or parallel, muscles are the most common. An example of a linear 
  134. muscle is
  135. the zygomaticus major which pulls up the corner of the mouth. Linear muscles
  136. have two attachment points. As they contract, they pull the fascia towards
  137. the attachment point on the bone, producing a facial movement. A slightly 
  138. different type of muscle is the sheet muscle. As with linear muscles, sheet 
  139. muscles work in one direction. The difference is that they are flatter and 
  140. wider, and their attachment area is broader. An example of this is the
  141. epicranius. This muscle has two parts: the anterior frontalis and the
  142. posterior occipitalis. The two muscular sheets are connected by a broad,
  143. flat tendon. Contraction of one or the other of the epicranial muscles pulls
  144. the scalp backward or forward. Sphincter muscles usually surround body 
  145. openings. They are ring shaped and will enlarge or reduce the opening
  146. by relaxing or contracting. The orbicularis oris is the sphincter muscle
  147. that closes the mouth and purses the lips.
  148.  
  149. Current facial animation systems use varying levels of anatomical
  150. realism. Some work by looking at what is externally visible, with
  151. no attempt to model the complexity of the facial layers (for example,
  152. Parke 1974). Other systems, such as Waters' tri-layer, physically based
  153. model (1990), simulate every layer of the face. There needs to be a trade-off
  154. between the complexity of the system, and the speed with which it
  155. operates. 
  156.  
  157. Background - Facial Movement and Expression
  158.  
  159. Analysis of facial expression has been a research area for psychologists for
  160. decades.  The psychologists' interest in this area is to find out how 
  161. humans transmit and receive 
  162. information through the face. They also look at how mental and
  163. physical disabilities affect facial movement. The expressiveness of
  164. the faces of patients with
  165. depression will often go through a series of stages related to
  166. their illness. It is hoped that breakthroughs in treatment of patients
  167. and the monitoring of illnesses will come from this research into facial
  168. movement. Another area of study is facial deception; how to tell if a
  169. person is lying to you. When a person lies, you can usually see some
  170. conflict in the expression on their face. This perception tends to come
  171. naturally. Studying which movements do and don't go with each other will
  172. give insights into how we interpret facial movement.
  173.  
  174. Two psychologists, Ekman and Friesen, have developed a system
  175. for anatomical analysis of facial movements. Their Facial Action
  176. Coding System, FACS (1978), has proven itself to be the most successful 
  177. method available for facial expression evaluation. They set about
  178. finding a method for detecting and recording facial movements in an
  179. objective way. Their research involved taking photographs of their own
  180. faces as they selectively fired different muscles. Through this they
  181. found out which muscles created which movements. In some cases they
  182. found groups of muscles that produced very similar effects. The groups of
  183. muscles and single muscles that are responsible for each
  184. distinguishable facial movement were named Action Units. 
  185. Ekman and
  186. Friesen found 46 Action Units and give full descriptions of each one.
  187.  
  188. Once the Action Units had been defined, Ekman and Friesen set about
  189. finding out how the units combine to create complex expressions. Their 
  190. manual includes
  191. information on how to identify which Action Units are involved in
  192. both
  193. simple and complex movements. They looked at over 55,000
  194. photos of different facial expressions. From these photos, they decided on
  195. six primary expressions. The expressions chosen communicate anger, fear, 
  196. disgust,
  197. sadness, happiness and surprise. 
  198. Most facial animation systems use the
  199. information in the FACS as a basis for designing and testing their
  200. systems.
  201.  
  202. Background - Speech
  203.  
  204. Tony White (1986) outlines the traditional method of synchronising
  205. animation
  206. with a speech track. This system involves recording the speech on tape,
  207. then
  208. noting down the phonetic interpretation of the words frame by frame.
  209. It is
  210. essential that the timing be done correctly as mistakes can mean
  211. having to do
  212. an expensive redraw of whole sections of the animation. This method of
  213. speech
  214. synchronisation is workable, as long as you have a script and you have
  215. plenty
  216. of time. To make speech synthesis viable in real time, a different
  217. approach
  218. must be taken. As with parameterisation of the face, the most
  219. attractive
  220. solution is to take a more abstract view. To do this, we have to look
  221. at the
  222. structure of language.
  223.  
  224. The phonetic alphabet is based on the basic elements of speech - sounds. This
  225. notation for the spoken word takes us away from letters and into a
  226. representation of the sounds that they can make. Mitchell (1964) explains that,
  227. "The relationship between letter and sound in the spelling of English is
  228. hopelessly confused and inconsistent". He goes on to outline a perfect system
  229. of representing sound by visual symbols:-
  230.  
  231. the same symbol would always represent the same sound.
  232. the same sound would always have the same symbol.
  233. a single sound would be represented by one symbol.
  234. there would never be a symbol in the spelling that did not correspond to a sound.
  235.  
  236. The statements in (a) to (c) are easily shown to be untrue of English, eg
  237. bow (curtsey), bough and bow (tie). The best examples of statement (d) are
  238. the silent letters in words like "gnome". Obviously, English is not a good
  239. place to start when creating a speech synthesis system.
  240.  
  241. Within the phonetic alphabet are phonemes. Phonemes are groups of sounds that
  242. are variants of a single sound. For example, the letter "t" can be said using
  243. a variety of mouth positions. These variations of the letter "t" are said to
  244. be in the neighbourhood of each other as their interchange does not affect
  245. their meaning. This grouping of closely related sounds lets us use the same
  246. symbol in different sound contexts knowing that its pronunciation will not vary
  247. by much. A bonus in working with phonemes is their language independence. As
  248. long as the full phonetic alphabet is supported, the system should be
  249. able to speak in any language.
  250.  
  251. The parts of the face involved in speaking are: the tongue, epiglottis, food
  252. passage, hard palate, lips, pharynx, soft palate, teeth, teeth ridge, uvula,
  253. position of the vocal chords and the windpipe. Luckily for us, the only
  254. elements we have to worry about in animation are the lips and the teeth.
  255. Masden (1969) indicates that lip animation requires the following capabilities:
  256.  
  257. open lips for the open vowels a, e and i
  258. closed lips for the accent consonants b, m and p
  259. an oval mouth for u, o and w
  260. and the lower lip tucked under the upper front teeth for f and v.
  261.  
  262. The remaining sounds are formed mainly by the tongue and do not require
  263. precise animation (Parke, 1975). So for an animation system, unseen
  264. movements can be ignore. The visible movements made by the face to 
  265. pronounce each phoneme will still need to be worked out, as
  266. a speech synchronised system will have to be capable of them all.
  267. There would need to be an appropriate action to match each phoneme 
  268. output by the synthesiser.
  269.  
  270.  
  271. Background - Animation
  272.  
  273. In their 1987 paper, Lasseter and Rafael investigated how traditional
  274. animation techniques can be applied to 3-D computer animation. Early
  275. computer animation was very similar to that of places like the Disney
  276. studios. Techniques such as storyboarding, keyframing and inbetweening
  277. were implemented using computers which made animation easier, but
  278. didn't bring anything new to the field. With 3-D computer animation, 
  279. objects are three dimensional, as in true life. The animator can work
  280. with the characters, rather than having to draw them frame by frame.
  281. The characters can be controlled like puppets, moving and talking,
  282. making better use of the power of computers. 
  283.  
  284. Bergeron (1985) created the computer animated short
  285. "Tony De Peltrie" using a 3-D animation package. Tony was made up of an
  286. hierarchical skeleton that was manipulated through the TAARNA
  287. interactive animation system.  Using a hierarchy automates the
  288. positioning of body parts as the system knows about the connections
  289. and dependencies within the body. Facial expressions were mapped from
  290. data recorded by digitising a real face. Thus a mixture of keyframing
  291. and 3-D animation came together to produce a very believable piece of
  292. animation. 
  293.  
  294. Todays computer animators can learn more about the craft of animation from
  295. its
  296. tradition. No matter how much the animation process is automated, it
  297. will still require artistic talent to make it work. Lasseter and
  298. Raphael (1987) give pointers on traditional tricks of the trade that
  299. the new breed of animators should bear in mind.
  300.  
  301. The principles of animation were created by studying the way things
  302. move in reality and working out how to get the same effect in an
  303. animated sequence. The most important principle is squash and stretch.
  304. When objects move in real life, they retain their volume, but can
  305. change their shape. The most obvious example is a bouncing ball. In an
  306. animated sequence, it will squash as it hits the ground, then stretch
  307. as it bounces away again. Different materials and shapes have their
  308. own way of squashing. In facial animation, the squash and stretch of
  309. the facial parts as they move in relation to each other is very
  310. important. Squash and stretch are also used to combat strobing between
  311. frames.
  312.  
  313. Timing of movements is also important as it can convey the speed and
  314. the size of objects. Thus a heavy object will take more time to get
  315. moving and get up to a speed, whereas a small object, like a mouse,
  316. will take no time at all. Anticipation of what is to come is another
  317. tool that animators can used to get their ideas across. For example,
  318. when a character is going to run, they often run on the spot for a few
  319. frames before they move. This prepares the audience for what is going
  320. to come next. Staging is similar to anticipation in that it helps the
  321. viewer to know where to look. Staging gives a focus to the scene, so
  322. that the eye of the viewer is fixed on the correct part of the screen
  323. to see the next piece of action.
  324.  
  325. To give a realistic imitation of something stopping, animators use
  326. follow through and overlapping action. An example is the follow through
  327. after a ball is thrown. There are two main methods of traditional
  328. animation: straight ahead and pose to pose. In straight ahead action,
  329. the animator knows what they're doing from the top, and goes from the
  330. first frame, all the way through. With pose to pose, the technique is
  331. much more like the keyframing that most computer animators use. They
  332. pick the positions each character will be in during each scene and
  333. then do the inbetween frames by interpolating between the two.
  334.  
  335. Slow in and slow out deal with the spacing of objects during movement.
  336. For example, a bouncing ball will be going very fast as it hits the
  337. ground, but will slow down as it reaches the top of the bounce. To
  338. give a more interesting movement, animators will often move objects in
  339. an arc rather than a straight line. They will also exaggerate the
  340. movements of a character to add life. Secondary actions, and the
  341. appeal of each character also heighten the effect of the animation. 
  342.  
  343. The most important part of character animation is to create a
  344. personality for each character. If we want to use a facial animation
  345. system to create believable characters, we have to learn the art of
  346. animation. What we have is a new set of tools to
  347. use for animation, mastery of these tools will give an
  348. entertaining result.
  349.  
  350. Background - Data Recording
  351.  
  352. Before any animation can be done, a 3-D model of the face/head is 
  353. required. There are two components to this 3-D model: the data
  354. points, and the topology. The number of data points recorded
  355. will vary depending on the accuracy required by the animator.
  356. To make the digitising process easier, the model can have markings on
  357. the face.
  358. The topology of the model is the indicator of the connectivity
  359. of the data points. Topological information is often a triangulation
  360. of the data. Triangles are chosen as they are easy to render
  361. and are always planar. If polygons have four or more sides,
  362. it is harder to ensure planarity and validity of polygons.
  363.  
  364. There are many techniques for recording 3-D spatial
  365. information. Good sources of information in this area are surveyers
  366. and cartographers. Even though most of their work involves very
  367. large objects, they do know a lot about techniques for close range 
  368. digitising. A
  369. manual technique for recording data is to scan two
  370. photographs taken from different (known) angles into a
  371. computer. Points on each image can be selected and their 3-D
  372. position can be calculated. A similar method is to use two
  373. slides and an analytical stereo digitiser. The digitiser
  374. projects one image onto each eye to give a 3-D effect. A
  375. floating mark can be guided over the image, recording each data
  376. point as it goes. A description of both of these techniques is
  377. in Doak et al (1991). Parke also describes 3-D digitisation in
  378. one of his earliest papers (1975b). For any of these  
  379. methods, the taking of the photographs must be done with great
  380. care as it is crucial to the final result. Calculation of each point
  381. in 3-space can be very complicated. A new method for solving
  382. the equations needed to work out 3-D positions of the data
  383. points is described in Naftel (1991).
  384.  
  385. Once the 3-D data has been recorded, the topological
  386. information needs to be defined. 
  387. This can be done manually by
  388. selecting the points in each triangle. Order is important when
  389. choosing the vertices so that the triangles will be facing the
  390. same direction. Errors made at this stage become obvious when
  391. the image is rendered. Another method is to put the points
  392. through a triangulation program. There are many algorithms for
  393. triangulation, eg. Delaunay triangulation. It is important to 
  394. choose one that will give the
  395. correct connectivity. Quite often, the irregular distribution
  396. of the points of the face cause mistakes in connections made during
  397. triangulation.
  398.  
  399. Variations on methods of recording data are very common. The use
  400. of 3-D digitisers takes a lot of the manual work
  401. out of recording data. Anderson (1990) used a Cyberware 3-D
  402. video laser to record facial data for The Abyss. Other techniques, 
  403. such as light striping using a scanning laser (Yau, 1988), automate the 
  404. collection of 3-D data. Triangulation of the data points still needs
  405. to be done. A more complicated method of recording and storing data
  406. uses surface patches rather than triangles. I didn't find any
  407. references that cared to explain how they'd implement surface
  408. patches. Quite a few put it in their "improvements" section.
  409.  
  410. The trade-off between accuracy, speed and cost of machinery must be
  411. evaluated before work commences. Stereo digitisers, scanning lasers
  412. and 3-D digitisers don't come cheap. They are quicker and more
  413. accurate than quick and dirty methods, however, so a decision must be 
  414. made. Each method has its pros and cons, the choice really depends on 
  415. the application. 
  416.  
  417. Background - User Interfaces
  418.  
  419. Gasper (1988) states that user interfaces (UI's) have gone through a series
  420. of generations in a similar way to computer languages. The first
  421. generation used switches and lights to convey information. Next came
  422. keyboards and character output followed by the third generation
  423. which introduced graphics and pointers. This is the current phase for user
  424. interfaces. We are working towards reaching the 
  425. fourth generation, voice synthesis and recognition, where the interface
  426. will be via speech rather than typed characters and mouse clicks. The
  427. fifth generation, if we ever get there, will use synthesised actors
  428. and talking faces. 
  429.  
  430. All of these developments are working towards
  431. making computers friendlier for users. This seems logical when you
  432. consider who it is we are creating the systems for. There are many users 
  433. who are scared of
  434. computers. The most successful interface for data transmission is
  435. the human face. It has been shown that only 10% of the information
  436. we receive during conversation comes from what is said. The other
  437. 90% comes from facial and bodily gestures (Pease, 1982). From this
  438. viewpoint, it is obvious that our current interfaces can not be making
  439. full use of what we know about human perception. If we can create
  440. systems that utilise all we know about how humans communicate, we
  441. will be able to transfer more information in a shorter period of
  442. time. 
  443.  
  444. One example of how our knowledge of human perception can be used to
  445. advantage is
  446. the Chernoff face (Marriott, 1990). Chernoff faces are a means of 
  447. displaying complex, multi-variable data. Each feature on a Chernoff 
  448. face depends on a different variable. As the values for the variables
  449. change, the "expression" on the face changes. Using faces and other
  450. familiar objects for displaying data values makes it easier to see
  451. what is happening to the data. The alternative would be to produce
  452. huge lists of numbers or to graph the data. It is easy to be boggled
  453. by pages and pages of numbers, and graphs have their limitations too.
  454. Users are more likely to have a good response when data is presented
  455. in a manner that is quickly and easily understood.
  456.  
  457. Facial animation systems will help to make user interfaces friendlier
  458. in a similar way to Chernoff faces. The facial model could go beyond
  459. simply speaking to the user, it could give non-verbal messages as
  460. well. If the user does something wrong, the face could become angry.
  461. When the terminal is sitting idle, the face might start to look bored
  462. and start whistling to itself. These features are over and above what
  463. is expected to happen with facial animation systems being incorporated
  464. into user interfaces. Most researchers are working towards building a
  465. more natural user interface. This type of interface would have the
  466. user talking head to head with the computer in a very natural way
  467. (Morishima, 1991). Such systems are already in existence, but they
  468. need to become more sophisticated before they can be put into general
  469. use. The two main failings of these systems are the quality of the 
  470. synthesised speech
  471. coming from the computer and the ability of the computer to recognise
  472. speech.
  473.  
  474. Creating a more natural interface is one way in which we can encourage
  475. new users to make better use of computers. Many people are scared of command
  476. line interfaces, and often using a mouse and windows can be a daunting
  477. task. By simulating an interface that all people are already familiar
  478. with, learning how to use computers will be much easier for the
  479. novice. The regular user will find it a lot more comfortable to work
  480. with.
  481.  
  482.  
  483. Applications
  484.  
  485. There is a wide range of applications for facial animation systems.
  486. Some of them are purely recreational (film-making), some make life
  487. easier for us (user interfaces) and others have a specific practical
  488. use (videophone technology). The choice of animation system depends
  489. highly on the sort of application it is being developed for.
  490.  
  491.  
  492.  
  493.  
  494. Applications - Film Making
  495.  
  496. The most well known application, as far as the general public is
  497. concerned, is facial animation for film and video. Animation is widely
  498. used as a special effect in movies to create sequences that would often 
  499. be impossible to do any other way. This is the least
  500. restrictive of applications that use facial animation systems as there 
  501. is no need for a real-time
  502. system. Most facial animation that we see on film is done using
  503. key-frame animation. This is the method used for the pseudo-pod in The
  504. Abyss (Anderson, 1990). Bergeron (1985, 1990) uses packages for his
  505. animated shorts, but is still using a variation of key-framing for the 
  506. actual animation. 
  507.  
  508. Many of the latest movies make use of facial animation. 
  509. Most of them, like The Abyss and Terminator 2,
  510. use full digitisation of each key-frame as a base for their animated
  511. sequences. The face of Kane in Robocop 2 is an updated version of Mike
  512. the Talking Head (Robertson, 1988). Mike was one of the first widely
  513. known results of facial animation, he even has his own manager. That
  514. serves as an indication of what can happen when a character is
  515. animated well enough to get a following.
  516.  
  517. DiPaola (1991) is working on extending the capabilities of facial 
  518. animation systems. Animators are starting to demand greater flexibility 
  519. from their animation systems. Many are using ideas from research
  520. papers to modify and extend their current systems to bring in
  521. parametric and anatomical models. Reeves (1990) uses a combination of a
  522. hierarchically defined skeleton and a muscle-based face for his
  523. animation. As more animators see the benefits of parametric models for
  524. facial animation, it is certain that they will begin to demand and make
  525. full use of such systems.
  526.  
  527.  
  528. Applications - User Interfaces
  529.  
  530. Improving user interfaces is one application of facial animation
  531. that is very likely to gain acceptance. It would be hard to find
  532. a computer user who is fully satisfied with the interface that
  533. they use. The problem with human-computer interfaces is that it
  534. takes a long time to learn how to use each new system. Most
  535. interfaces are completely alien to the novice user. Presenting
  536. users with a familiar interface, the human face, will
  537. create a more comfortable environment for users to work in.
  538. Coupling this up with a speech recognition/synthesis system would
  539. take away the embarrassment users feel when faced with a 
  540. keyboard. Welsh (1990) and Morishima (1991) give the development
  541. of user interfaces as one of the major projected uses for their facial
  542. animation systems. Hardware and software for speech recognition
  543. will have to be developed further before this type of user
  544. interface can become commonplace. Hopefully we wont have to wait too
  545. long.
  546.  
  547.  
  548. Applications - Medical Research
  549.  
  550. The main uses for facial animation in medicine will be in the
  551. surgical and psychological areas. Parke (1982) predicts that
  552. parameterised facial models may become aids for previewing the
  553. effects of corrective surgery or dental procedures on patients.
  554. This type of application would need a very accurate anatomical
  555. model of the patient's face and a means of indicating what changes
  556. will take place. Waters' (1987) view on pre-operative techniques
  557. is that, "Surgical reconstruction of faces uses a number
  558. of techniques to collect 3-D data: Moire patterning, lofting of
  559. CAT or EMR scans and lasers. The resultant data can vary
  560. enormously from one face to another, and so any resultant
  561. parameterisation would, at best, be tedious to implement." This is not
  562. to say that it won't happen, Waters is admitting the difficulty of
  563. such work.
  564.  
  565. The use of newly developed facial animation systems by psychologists 
  566. for researching facial movement and expression is a logical move.
  567. Since around 1982, most facial animation systems have used Ekman
  568. and Friesen's FACS (1978) as an anatomical guide when
  569. constructing the facial model. Research by computing people has
  570. thus given the psychologists a plethora of graphical
  571. implementations of their theories. Now they have the opportunity
  572. to supplement their research with computer models of facial
  573. movement rather than having to use photographs or train people to 
  574. fire muscles at will. 
  575.  
  576.  
  577. Applications - Teaching and Speech Aids
  578.  
  579. One application that has already been tested is the use of a facial
  580. animation system as a teaching tool. There are many people in the
  581. community who could benefit from a different method of teaching,
  582. especially in the language and speech area. Teaching people the
  583. correct way to pronounce words is a tedious and repetitive process.
  584. This process is often made much more difficult when the student has a
  585. speech or hearing disability. Instead of having labour intensive,
  586. one-on-one tutoring, the student could work at their own pace with a
  587. computer simulated teacher. The student's pronounciation could be
  588. tested and feedback given as to how they can improve their speech.
  589.  
  590. Teaching people with hearing disorders to lip-read could be made
  591. easier with an appropriate facial animation system. Not just
  592. lip-reading, but teaching the deaf to speak is a noble and
  593. highly likely application. Mouth positions could be copied from
  594. the computer model and feedback on how well they're speaking
  595. would make the learning task a lot easier. People
  596. with disabilities would most likely welcome the opportunity to be
  597. able to teach themselves communication skills. The 
  598. satisfaction of being able to teach
  599. themselves along with the the skills learnt through an instructional
  600. system would make such developments very worthwhile. 
  601.  
  602. One of the applications of HyperAnimation (Gasper, 1992) is Talking
  603. Tiles. This program aims to be an aid in teaching language skills. It
  604. is phoneme based and is thus language independent. Talking Tiles is
  605. mainly for younger people to give them an interesting tutorial tool to
  606. teach them how to put sounds together. The player aims to sort out
  607. anagrams of words. Words are represented by a series of tiles that
  608. can be swapped around. The phonemes can be heard tile by tile and then the
  609. final word can be sounded out as a blended combination of the
  610. component tiles. By making the learning process seem like a game,
  611. the student's attention is held and they can learn more than they
  612. would using traditional methods. Lessons in foreign languages would be
  613. a matter of adding an extension to the vocabulary. 
  614.  
  615. Teaching correct pronounciation is a time-consuming task. It is
  616. usually boring, both for the student and the teacher. Hiding the
  617. lessons within a game makes learning more enjoyable. Using a
  618. computer as a teacher gives more freedom to the teacher to do
  619. less mundane work, and makes it possible for more than one
  620. student to learn at one time. Most importantly, the student can
  621. learn at their own pace and will not be embarrassed about
  622. redoing an exercise they feel needs more work.
  623.  
  624.  
  625. Applications - Criminal Identification
  626.  
  627. Improving methods of identifying people could help with criminal
  628. investigations world-wide. The FACE system developed by Vision Control
  629. Australia and the Victorian Police (Eaves et al, 1990) is not really
  630. an animation system. It uses a lot of the knowledge from research done
  631. on facial animation along with the experience that police have had 
  632. with the Identikit and Photofit identification systems.
  633.  
  634. The FACE system uses a series of overlays, similar to those in the
  635. Identikit, to create a facial image. A database of facial components
  636. from various ethnic groups is available and can be added to. Once the
  637. face is put together, different parts of it can be selected and
  638. altered to get the best possible fit. Parke (1982) described a
  639. possible identification system where a 3-D facial model could be
  640. manipulated to match the witness' description. The main advantage of
  641. this would be that a 3-D image would result in a more
  642. accurate description of the criminal. This is especially true in cases where
  643. the witness didn't get a front-on view of the offender. The
  644. possibilities are there, whether such a system is viable
  645. remains to be seen.
  646.  
  647.  
  648. Applications - Communications
  649.  
  650. The application getting the most support from industry is the use
  651. of facial animation to reduce bandwidth when transmitting facial
  652. images. British Telecom, DEC and Sony are some of the companies
  653. doing research in the area. By transmitting parameter data related to
  654. movements rather
  655. than complete images, reductions can be made on the amount of 
  656. data being sent through communication lines (Parke, 1982). "Low
  657. bandwidth teleconferencing ... requires the real-time extraction
  658. of facial control parameters from live video at the transmission
  659. site and the reconstruction of a dynamic facsimile of the
  660. subject's face at the remote receiver" (Terzopoulos & Waters,
  661. 1990). So either facial movement analysis or speech recognition
  662. systems need to be developed further so that the communications field
  663. can reap the benefits of facial
  664. animation. Teleconferencing and videophones are the two main
  665. applications being looked at by people in communications.
  666.  
  667.  
  668.  
  669. Techniques of Facial Animation
  670.  
  671. Before implementing a facial animation system, the projected uses must
  672. be thought through. For this thesis, a flexible, real time system is
  673. required. It needs to give realistic output and be able to take input
  674. from text files as well as speech tracks. To make it easier to set up
  675. and test the system, an anatomical base would be most suitable.
  676.  
  677. For all animation methods, the most important features of the face are
  678. the eyes and mouth. This is not just because they tend to move the
  679. most. Studies have shown that when we look at other people's faces, we
  680. spend most of our time looking at the eyes and mouth (Morris, 1982).
  681. The results of tracking a person's eyes while looking
  682. at a picture of a human face illustrate this point.
  683. Even though setting up a system for
  684. speech synchronisation concentrates on the models mouth, we should not
  685. forget to animate the eyes as well. Setting up the system to do occaisional 
  686. eye movements would probably be enough. The timing for these eye
  687. movements would have to be thought out. It is very discomforting to talk
  688. to someone who blinks too often, or not often enough. Incorporating slight
  689. head 
  690. movements would be another way of making the system more realistic. These
  691. are some of the features that should be available in a facial animation 
  692. system, if it is to give a realistic result.
  693.  
  694. There are three main approaches to facial animation: key-framing, 
  695. parameterised models (Parke, 1974) and physically based models 
  696. (Waters, 1990). Each
  697. method has good and bad features, depending on how fast and how 
  698. flexible you want the system to be and what you intend to use it for. 
  699.  
  700.  
  701. Key Frame Animation
  702.  
  703. Key frame animation is used extensively in conventional computer
  704. animation
  705. systems for simpler types of animation such as character animation
  706. (Lasseter
  707. 1987). The method used in key frame computer animation is to
  708. completely define
  709. a model by its position and rotation for specified key frames.
  710. Key frames
  711. are separate time instants that the animation system uses to produce
  712. 'inbetween'
  713.  motion of the model.  The model's definition between key frames
  714. is generated by applying some interpolating algorithm to the key
  715. frames,
  716. giving the complete animation of that model.
  717.  
  718. Although key frame animation has been used successfully in 2-D
  719. animation
  720. systems it is too inefficient for 3-D animation (Waters 1987, Parke
  721. 1982).
  722. For each key frame a complete specification of the model is required
  723. and each
  724. change in the model, no matter how small, requires every element's
  725. position to
  726. be specified for the whole model.  For a complex 3-D model with a
  727. lot of
  728. frames this becomes too costly.
  729.  
  730.  
  731. Parameterisation
  732.  
  733. Parameterisation is the main technique used in 3-D facial animation.
  734. The
  735. parameterisation concept takes the individual parts of a model and
  736. combines
  737. them together in different groups having common criterion or
  738. parameters
  739. (Parke 1982).  Each member of a group can be described by some
  740. variation on
  741. those parameters.  As an example take the set of possible facial
  742. expressions.
  743. For the set to cover all expressions it would have to have enough
  744. parameters to successfully describe any expression you desired.
  745. The parameters set 
  746. could include: pupil size, mouth width, mouth height, etc. depending on
  747. the level of
  748. realism you required. This set could be broken up into smaller, more
  749. manageable sets as the facial expressions become more complex.  There
  750. is no end to the possible groupings of muscles. With so many
  751. possible groupings of parameters, it would be impossible for us to
  752. develop a complete parameter set for facial expressions.
  753.  
  754. The advantage of parameterisation over key framing is that
  755. parameterisation
  756. allows the animation of a model to be performed as manipulations of
  757. specific
  758. groups.  Small movements can be treated as the re-specification of
  759. small
  760. groups rather than the whole model.  Although more economical than key
  761. framing
  762. the method used in facial animation to date is not general.  One
  763. parameterization model can't be used to describe a totally different
  764. facial
  765. topology (Waters 1987).  This is due to the unbounded characteristics
  766. of the
  767. set of possible faces and their expressions.
  768.  
  769. Most facial parameterisation models are specific to the current model
  770. being
  771. animated.  These use mainly expressive types of parameters with
  772. little, if any
  773. emphasis on the facial structure, and are therefore fairly simple and
  774. efficient.
  775. Parke (1982) works on a more general facial parameterisation method by
  776. using
  777. conformation (structure) parameters as well as expression parameters
  778. to
  779. describe sets of facial objects.
  780.  
  781.  
  782.  
  783. Physically Based Models
  784.  
  785. There are varying levels of complexity possible for anatomically based
  786. facial animation. Waters created a muscle model in 1987. 
  787. Another anatomical method used for animating the face is the dynamic 
  788. simulation of facial skin tissue.  Terzopoulos and Waters (1990) have 
  789. produced a model that
  790. simulates the motion of facial skin tissue using Waters' muscle model
  791. (Waters 1987) as a base. The physical basis of the model gives an
  792. added benefit of automatic error checking. The only movements possible
  793. within the model are those that are possible in real life.
  794.  
  795. The facial skin tissue model of Terzopoulos and Waters (1990) produces
  796. improved
  797. simulation of the deformable properties of skin tissue under the
  798. forces
  799. produced by the muscles. 
  800. The biggest advantage of this model
  801. is that it
  802. can run at interactive speeds while producing more realistic images.
  803. This is
  804. a direct result of the small parameter set required to describe a
  805. wide range of
  806. facial expressions.
  807.  
  808. Terzopoulos and Waters (1990) describe the model as a six level
  809. hierarchy of
  810. decreasing data abstraction. The expression level executes expression
  811. commands
  812. in terms base expressions, time intervals and emphasis.  The next
  813. level is the
  814. control level which converts expressions into coordinated movement of
  815. the
  816. facial muscles.  The third level and this level describes the
  817. properties of the
  818. different facial muscles.  Below the muscle is the physics level,
  819. containing
  820. the physically based facial tissue model which is acted upon by the
  821. activated
  822. muscles.  The fifth level, the geometry level, is the geometric
  823. representation
  824. of the model which is acted upon by muscle activation and the
  825. resulting skin
  826. deformation.  The last level is responsible for the images.  This
  827. level uses
  828. various graphics techniques to build and render the facial image using
  829. dedicated graphics hardware.  This allows continuous facial
  830. representation at interactive rates.
  831.  
  832. The main difference between this model and others is its physical base.
  833. Terzopoulos and Waters (1990) discuss the structure and
  834. properties of real facial skin tissue derived from medical research.
  835. They then introduce a mathematical model that uses spring dynamics to
  836. simulate the
  837. properties of facial tissue.  The structure used to physically
  838. represent the
  839. facial skin model is a tri-layered deformable lattice of point masses
  840. connected
  841. by springs.  Each layer represents the corresponding layer of tissue
  842. in a real
  843. face. Stiffness of the skin and other properties of each layer are
  844. taken into
  845. account as spring variables.  Each layer is connected by the springs
  846. as
  847. individual nodes in a layer are also thus producing a stable
  848. interconnected
  849. lattice.
  850. Terzopoulos and Waters (1990) have experimented using this model with
  851. real time
  852. video, producing promising results.
  853.  
  854.  
  855.  
  856. Examples of Existing Facial Animation Systems
  857.  
  858. A wide range of facial animation systems have been developed over
  859. the last twenty years. Most of them have built on the initial research
  860. done by Fred Parke in his 1974 thesis.
  861. Keith Waters has done a lot of
  862. work in the area, publishing information about his physically based 
  863. system in 1987 and improving on it in the time since then.
  864.  
  865. Waters and Parke are far from being the only ones making headway in
  866. facial animation.
  867. DiPaola (1991) is creating a more general facial animation tool to
  868. give more freedom to the animator. There is a growing trend towards systems
  869. that use texture mapping to give a more true to life finish to the
  870. output images. Researchers looking into this area include: Yau (1988),
  871. Morishima (1991) and Waters (***). Automatic animation is another area
  872. undergoing a lot of research. Williams (1990) uses facial movement to
  873. drive his system. Speech driven systems have been developed by Welsh
  874. (1990), Morishima (1991) and Lewis (1991). In Japan they are working
  875. on integrated systems with facial animation being a fundamental part
  876. of the user interface (Gross, 1991).
  877.  
  878.  
  879. Parke's Research
  880.  
  881. Fred Parke has been working in the area of facial animation for almost
  882. 20 years. His published works include a PhD thesis and numerous
  883. papers. 
  884.  
  885.  
  886. PhD Thesis
  887.  
  888. This is the research that sparked the initial interest in facial
  889. animation. Parke set about finding a simpler, more flexible model for
  890. facial animation. He aimed to develop a system where the user could
  891. manipulate a face by inputting a set of parameters, rather than having
  892. to
  893. define each vertex in the image (key-framing).
  894.  
  895. The basic idea that makes this work possible is interpolation. By
  896. using a coefficient or parameter, the programmer can determine a point
  897. between two extremes with the simple expression: x =a(p1) + (1-a)(p2).
  898. This idea can easily be expanded into three dimensions. This idea can
  899. be used to morph between objects, given that their topologies are the
  900. same. Thus, if the topology of a face is fixed, then interpolating
  901. between facial positions is a matter of evaluating the mathematical
  902. expressions associated with each vertex. The author recorded data from
  903. a real face and manipulated it to check that his theory was correct.
  904. From his experiments, he found that, indeed, it was possible to use
  905. one topology for a moving face.
  906.  
  907. When developing the parametric model, Parke divided the parameters
  908. into two main categories: those controlling facial expression, and
  909. those altering the basic shape of the face. The face itself is
  910. symmetric in this model. The manipulation capabilities are implemented
  911. using parameters to control the interpolation, translation, rotation,
  912. and scaling of the facial features. The expressions in the model are
  913. mainly a result of the movement of the eyes and mouth, as is the case
  914. with real faces. As well as being able to open and close the eyes, the
  915. user is able to define the direction in which they are looking. This
  916. is crucial in making them a
  917. believable imitation of the real thing. For the mouth, teeth were made
  918. to give a bit more realism when the mouth was opened. Conformation
  919. parameters simulate the differences between faces, for example, nose
  920. shape, rather than the change in expression on a single face.
  921.  
  922. Once the model is set up, the next step is to work out how the
  923. parameters should vary over time. The theory behind this is taken from
  924. traditional animation techniques. From them, it is possible to find out
  925. what movements are involved in each facial expression. Medical books
  926. are also a good source of information about facial movements. Speech
  927. synchronisation involves matching the movements of the mouth with a
  928. recorded speech track. Many levels of animation were attempted. It was
  929. found that when six parameters were involved (these included eyes and
  930. eyebrows) the result was at least on a par with most conventional
  931. speech animation.
  932.  
  933. Parke concludes that the most useful parameters are the ones involved
  934. in mouth, eye and jaw movement. He states the symmetry of the model,
  935. although easing the complexity of the model, is a deficiency as it
  936. cuts out a lot of expressions and reduces the realism of the image. He
  937. refers to the parameterised system as an instrument we do not yet know
  938. how to play.
  939.  
  940.  
  941. Later Work
  942.  
  943. Parke went on to refine his animation system by giving it a more
  944. anatomical basis. To create a parameterised facial model, the designer
  945. must first create
  946. the parameter sets. These parameters define the adjustable parts of
  947. the face. (movements as well as colour, size, distance and viewpoint)
  948. Once this is done, the synthesis model is developed to produce images
  949. based on the parameter values. It has two main parts: the parametric
  950. model (the data, algorithms and functions for image definition) and
  951. the graphics routines to give a visual interpretation of the data.
  952.  
  953. Again, Parke uses two broad categories of parameters: conformation or
  954. structural parameters, and expression parameters. Many of the ideas
  955. for
  956. expression parameters come from Ekman and Friesen's FACS manual.
  957. Conformation parameters let the animator change the shape and size of
  958. parts of the face. 
  959. In the process of developing this animation system,
  960. the writer found that, the more realistic his model got, the pickier
  961. the people he tried it out on became.
  962.  
  963. The topology of the facial model does not change, just the positions
  964. of the vertices. The parameters can be entered into the system
  965. interactively or, for animated sequences, through command files. Five
  966. types of operations determine the vertex positions for the image. They
  967. are: procedural construction (for the eyes); interpolation (to get the
  968. position of a vertex between two extremes, depending on the parameter
  969. value); rotation (for jaw movement); scaling (for changing the size of
  970. specific features) and position offset (to move regions of points, as
  971. in the corners of the mouth). The final image is shown with skin
  972. coloured Phong shading. Some examples of output images are given. The
  973. author believes that the main benefit of parameterised facial systems
  974. is that they abstract the animation process and make it simpler for
  975. the
  976. animator.
  977.  
  978.  
  979.  
  980. Water's Research
  981.  
  982. Keith Waters has made a name for himself in the field of facial
  983. animation. He takes an anatomical approach to facial models, first
  984. with his muscle model, and secondly with the tri-layer tissue model.
  985.  
  986.  
  987. The Muscle Model   
  988.  
  989. To develop the parameter sets for the face, Waters worked with the
  990. Facial Action Coding System (FACS). FACS provides a notation-based
  991. environment with a set of Action Units (AU) to represent muscle groups
  992. which work together to produce a single movement. The combination of
  993. movements that can be produced by the Action Units create the
  994. expressions we know and love. The goal of this research is to model
  995. the basic facial expressions (anger, sadness, happiness, fear,
  996. surprise and disgust) and test them using the FACS system to validate
  997. the results.
  998.  
  999. To give a realistic model of the face, the anatomy of the human head
  1000. had to be studied. Firstly, the bone involved in the face. The only
  1001. moving
  1002. part is the jaw, which rotates about an axis. The muscles work above
  1003. the bone, and are often attached to the bone at one end. Waters
  1004. divides the face into upper and lower sections, stating that the most
  1005. complex part of the face to model is the mouth. He models two types of
  1006. muscles: linear/parallel and sphincter. Each node on the facial mesh
  1007. is affected by one or more muscles, so its position at any point in
  1008. time is defined as a function of the parameters relating to those
  1009. muscles. The intricacies of the skin and facial tissue were not taken
  1010. into account in this model. For example, the effects of ageing on the
  1011. elasticity of the skin and the differences in the amounts of fatty
  1012. tissue. To get an idea of a typical layout of the muscles and their
  1013. attachment points on the face, accurate measurements were taken of
  1014. several people. This gave Waters an idea of what differences were
  1015. likely between people and what the "average" face would look like.
  1016.  
  1017. To model the individual muscles, each one was represented as a vector
  1018. whose magnitude is the pull that the muscle is exerting. For each
  1019. muscle, a fall-off function, a zone of influence and a maximum
  1020. movement is defined. The model uses only ten of the muscles of the
  1021. face to produce its output. By inputting parameters, the user can make
  1022. the model go through any humanly possible facial expression. The
  1023. result of this research is a system capable of making believable
  1024. expressions using parameter input.
  1025.  
  1026.  
  1027. The Tri-layer Model
  1028.  
  1029. The facial model is a hierarchical system which lets the user control
  1030. parameters for facial movements at six different levels. These levels
  1031. are: expression, control (of muscle groups), muscle (individual
  1032. muscles), physics, geometry and images (light sources and colour
  1033. choices). Thus, using higher control levels, the user can work
  1034. with the model at an abstract level without needing to know about the
  1035. complexity of the underlying system.
  1036.  
  1037. The facial tissue model is based on the real thing, with the effects
  1038. of
  1039. the epidermis, dermis, subcutaneous fat and then the muscle being
  1040. taken into account. The geometric model consists of three layers of
  1041. tetrahedrons. The top layer is the skin, the second is the dermis and
  1042. fat and the third is muscle. The result is a visual image that
  1043. is not seeing the muscle movements directly, instead it is seeing them
  1044. after
  1045. they have been "filtered" or propagated through the layers of facial
  1046. tissue.
  1047.  
  1048. Facial muscle control is based on the action units outlined in FACS.
  1049. The muscles themselves can be of three main types: sheet, sphincter
  1050. and linear. Examples of each include: sheet - the muscle that raises
  1051. the
  1052. eyebrows, sphincter - the muscle that pouts the lips, and linear - the
  1053. zygomaticus major which raises the corner of the mouth. In
  1054. this model the muscles work through the third layer of the mesh. For
  1055. each facial movement, all of the effects of all the muscles have to be
  1056. computed. The model is created with the epidermis as the start point.
  1057. From the epidermis, the structure for the two lower layers is created
  1058. using the normals for each polygon on the epidermis.
  1059.  
  1060. To track the facial movements, a real model is videoed and this video
  1061. is fed into an image processing system. To aid in the visibility of
  1062. the facial features, lines are drawn on the face in strategic places.
  1063. These lines make it possible to track: the head position - using a
  1064. line along the hairline; the movement of the zygomaticus major - using
  1065. the movements of the endpoints of the mouth; nasal movements - using
  1066. the curve of the nostril; eyebrow movements; and jaw rotation - using
  1067. the line of the lower edge of the chin. These positions are computed
  1068. relative to the hairline. To start the dynamic image system, the
  1069. model's face is processed while in a relaxed state to give an idea of
  1070. the resting lengths of all the muscles. Using the neutral face as a
  1071. reference, the facial movements can be approximated on the computer
  1072. generated image. This has worked in practise to generate a very
  1073. effective result.
  1074.  
  1075.  
  1076.  
  1077. More Recent Research
  1078.  
  1079. Research into developing 
  1080. better techniques for facial animation is being done all
  1081. over the world. Ideas in the pipeline include: extending the range of
  1082. facial types available; texture mapping for greater realism; analysis
  1083. of facial movement and speech to automate animation; and integrated
  1084. systems where facial animation is a component of a graphical user
  1085. interface.
  1086.  
  1087.  
  1088. Extending the Range of Facial Types
  1089.  
  1090. Steve DiPaola (1991) takes a different approach to the area of facial
  1091. animation.  He looks into the creation of an animation tool
  1092. which lets the animator alter the
  1093. structure and the rendering of a facial model to a much greater
  1094. extent
  1095. than previous models. He aims to create a tool that is more general
  1096. than
  1097. current systems. His work is based on Parke's animation model.
  1098.  
  1099. Once the author had implemented the natural movements the face is capable
  1100. of, he went on to expand the system to include more unnatural
  1101. possibilities. DiPaola thought in terms of what animators would like
  1102. to be able to do with an animation system. He gives the animator full
  1103. control of texture and colour, as well as more freedom with the facial
  1104. movements.
  1105. Using techniques from traditional animation, he improved the system by
  1106. adding extra movements and transformations, some of which would be
  1107. impossible
  1108. in reality. An example is the ability to scale up facial features; an
  1109. eye
  1110. scaling up to half the size of the head. These added movements
  1111. affected
  1112. the surrounding area in different ways to the standard facial
  1113. movements.
  1114. The techniques for implementing these extra movements were taken from
  1115. traditional animation and observation and research into animal
  1116. physiology. Another parameter the author added is used for warping the
  1117. whole
  1118. or parts of the face. The warping function can have a subtle effect,
  1119. as in
  1120. a warp to produce a facial crease, or a blatant effect as in turning
  1121. the
  1122. head into a corkscrew. Stochastic noise deformation is also available
  1123. to
  1124. let the animator randomly alter an input face, to create a variety of
  1125. new faces. It can also be used to distort the face, giving similar
  1126. effects
  1127. to warping.
  1128.  
  1129. Future areas of research for this system will include the use of
  1130. patches,
  1131. developing a hair model that can incorporate a variety of hair styles,
  1132. and
  1133. techniques to easily modify and animate a large range of facial
  1134. wrinkles,
  1135. furrows and bulges.
  1136.  
  1137.  
  1138. Texture Mapping 
  1139.  
  1140. Yau (1988) outlines a technique for animating the face
  1141. which gives a more realistic texture than most facial animation
  1142. systems.
  1143. Their technique involves taking images of a real face and projecting
  1144. them onto the surface of a 3-D object. This method is aimed at
  1145. overcoming one of the problems with facial animation systems: 
  1146. cartoon-like characters that don't look very realistic. 
  1147.  
  1148. Two 3-D models are used in Yau's animation system. One of them is
  1149. dynamic
  1150. and is used to find out the positioning and movements of the face. It
  1151. is
  1152. used just before output to the screen to set up the transformation
  1153. matrix. The second model is static and has the texture mapped onto it.
  1154. This method speeds up the mapping process before the image is
  1155. transformed and the lighting calculations take place. The problem 
  1156. with this method is that an open mouth can be mapped onto a closed mouth,
  1157. which can look pretty silly. 
  1158. Yau gets around this by having some basic facial movements included
  1159. with the (semi) static model. These are used in cases when the mouth
  1160. and eyes go through major movements.
  1161.  
  1162. Similarly, 
  1163. Morishima (1990) uses a 3-D wire frame model and maps a 2-D texture onto it.
  1164. Points of importance on the 3-D face are matched up to corresponding
  1165. points
  1166. on the texture map using an affine-transformation. The authors set up
  1167. 17
  1168. phoneme positions for the face. The model includes teeth, and the
  1169. movements
  1170. of the teeth follow directly from the jaw movements.
  1171.  
  1172. Other people looking into texture mapped animation systems include
  1173. Williams (1990) and Waters (1991). Waters has simplified his tri-layer
  1174. tissue model to make it possible to run the texture mapped system in
  1175. real time.  Texture mapped systems are quite slow and restricted, 
  1176. but can give some very realistic
  1177. results. More flexibility will come as more movements can be made in
  1178. the static model.
  1179.  
  1180. Movement Driven Systems
  1181.  
  1182. Williams (1990) set out to create a system for animating a face using video
  1183. input. It extends upon the work done by Parke and Waters by attempting
  1184. to map texture and expression with continuous motion as input. Using
  1185. current technologies, both human features and human performance can,
  1186. in Williams opinion, be extracted, edited, and abstracted with
  1187. sufficient detail and precision to serve dramatic purposes.
  1188.  
  1189. To create the model, a real head was sculpted in plaster and photos
  1190. were taken from different angles. The scanned data, along with the
  1191. photographic information, was used to create a warping rule for
  1192. texture mapping. The result was a cylindrical texture map that could
  1193. be wrapped around the 3-D facial image. 
  1194. The final model can be stretched in an
  1195. unrealistic way, resembling a latex mask in some respects.
  1196.  
  1197. To do the animation, small dots were put onto the model's skin and
  1198. then tracked as she went through some facial expressions. Using this
  1199. as input, the computer generated face copied each change in the facial
  1200. expression. The reference points on the model were duplicated on the
  1201. computerised face and the calculations for each movement of a
  1202. reference point resulted in the appropriate alterations to the facial
  1203. mesh. This work is a proof of the concept being valid, and will be
  1204. continued and expanded on in the future.
  1205.  
  1206.  
  1207. Speech Driven Systems
  1208.  
  1209. One of the most difficult problems in facial animation is speech
  1210. synchronisation. Sub-standard synchronisation can make an otherwise
  1211. perfect piece of animation look ridiculous (remember the spaghetti
  1212. westerns). Traditionally, this problem has been handled using two
  1213. methods: rotoscoping, where a live model is recorded on video and
  1214. the animators copy their movements frame by frame; and canonical
  1215. mapping, where the mouth shapes for each phoneme and/or expression
  1216. are taken from an animation handbook and then they are formed on
  1217. the animated face (Lewis, 1991). Both of these methods are highly time 
  1218. consuming
  1219. as they have to be done manually. Current research is trying to solve
  1220. the problem of how to automatically obtain mouth movements from a 
  1221. recorded soundtrack.
  1222.  
  1223. One technique for speech analysis is the source-filter speech model
  1224. (Lewis, 1991). In a source-filter model, the speech track can be separated
  1225. into it's components: periodic harmonics, which are constant and
  1226. come from the vocal chords; and vocal tract filters which create 
  1227. formants within the sound.
  1228. Formants alter the speech spectrogram plot, and can thus be identified
  1229. through a plot. Each formant corresponds to a certain combination of
  1230. mouth and vocal tract movements which produce each phoneme. From this
  1231. information, each phoneme can be produced on an animated
  1232. model. An important feature of this model is that it separates the
  1233. phonetic information from the intonation. Thus the loudness and
  1234. softness of the sounds do not affect the formant information. A system
  1235. that can output a script of phoneme information is a suitable starting
  1236. point for automated lip-synch.
  1237.  
  1238. The most simple technique for automating mouth movements is "loudness 
  1239. equals jaw rotation". As the loudness of the sound increases, 
  1240. the mouth opens wider. This is
  1241. not really satisfactory as there are sounds that can be made with the
  1242. mouth shut and the animation tends to look robotic. Another technique
  1243. is spectrum matching. This involves putting the soundtrack through
  1244. filters and matching the resulting spectra with reference sounds.
  1245. There are problems with getting a good match if the pitch of the speech
  1246. varies.  A different approach is speech synthesis. In this approach, the
  1247. animation and synthesis systems are coupled together. They accept a script of
  1248. text and each one responds appropriately. The problem here is in the speech
  1249. synthesisers. Their output isn't very realistic as far as intonation
  1250. and flow of speech go. The feasibility of this type of system will
  1251. improve as more and more work is done in the speech synthesis area.
  1252.  
  1253. The method favoured by Lewis (1991) is the linear prediction
  1254. approach. It is a special case of Wiener filtering and involves
  1255. separating
  1256. the sound source and vocal tract components of speech. 
  1257. Supersampling the speech is advised for best results. This means that
  1258. the speech should be analysed more times per second than the frames per
  1259. second required for the animation. Supersampling helps to keep the facial
  1260. movements smooth by reducing aliasing. Equations, proofs and references
  1261. for implementing this method are given in Lewis's 1991 paper. For speech
  1262. synchronisation, the phonemes have to be within an error bound of a set
  1263. of reference sounds. Lewis advises concentrating on vowels as they are
  1264. easier to identify on the speech spectrum. They are usually longer than
  1265. consonants, so they take up more of the time during speech. 
  1266. Most consonants have very similar spectra and mouth positions, and for
  1267. others, there is no set mouth position (Lewis, 1991).
  1268.  
  1269. Papers by Welsh (1990) and by Morishima (1991) outline their systems
  1270. for speech driven facial animation. 
  1271. In Welsh's system (1990), the mouth shape is parameterised using 
  1272. height and width. For each image
  1273. frame there are two speech frames, which smooths the facial movements.
  1274. The mouth has 16 possible positions, and each transitional movement from
  1275. one position to all of the others is given a probability. This is an
  1276. aid in determining which mouth shape is going to come next by giving a low
  1277. probability to those that rarely occur. Welsh hopes that they
  1278. will be able to produce a speaker independent system in the near future.
  1279. Morishima (1991) uses two methods of voice to image conversion. 
  1280. The first is vector quantisation, and
  1281. the other is synthesis by neural network. The output of each of these
  1282. converters becomes the input to the image synthesis system.
  1283.  
  1284.  
  1285. Integrated Systems
  1286.  
  1287. In Japan, they are working at building better graphical user
  1288. interfaces (GUI's) (Gross, 1991). The future for GUI's is to progress 
  1289. from the current electronic desktop to the virtual office.
  1290. As part of the research into producing better GUI's,  programmers at 
  1291. Sony are working on System G, a real time video
  1292. animation and texture wrap system. The most striking demo for the
  1293. system is a Kabuki mask which can be animated and fully rendered in
  1294. real time. The mask has a huge repertoire of facial movements. It even
  1295. has a tongue, unlike most other facial animation systems.
  1296. The demo proceeds by taking input from an organ and the face sings
  1297. along with the music with a one frame delay. This facial animation
  1298. research will serve as a basis for work into the recognition of facial
  1299. expressions, spoken commands and body language.
  1300.  
  1301. In the Visual Perception Laboratory (VPL) within Nippon Telegraph &
  1302. Telephone (NTT) they have three related research projects in process:
  1303. computer recognition of people from their faces; facial expression
  1304. recognition and lipreading and a group working to find interesting
  1305. uses for optical character recognition and image processing
  1306. technology.
  1307. The combination of these projects has already produced a very
  1308. effective, Max Headroom style interface which can hold a conversation.
  1309. The technology is also being used to recognise number plates and some
  1310. basic facial movements.
  1311.  
  1312. In all the Japanese are taking a long term approach to
  1313. bringing virtual reality to the computing industry. They are planning their
  1314. research, and adopting what they learn into their current systems,
  1315. easing the task of conversion which is bound to come later. 
  1316. The products that the
  1317. Japanese are producing on their way to mastering virtual reality are
  1318. being worked into current systems for long term benefits, rather than
  1319. producing spin-off solutions that can be applied to immediate
  1320. problems. For the Japanese, facial animation is a part of the big
  1321. picture for GUI development.
  1322.  
  1323.  
  1324.  
  1325.  
  1326. The Pilot Project and Beyond
  1327.  
  1328. This thesis follows on from a group graphics project carried out in
  1329. 1991. The aim of the group project was to do preliminary research into
  1330. facial animation. Starting with a few landmark articles, the research
  1331. base was expanded by tracing through the references given in each
  1332. article. The project also tested out different methods of recording
  1333. 3-D facial data. 
  1334.  
  1335. The project report summarised the information gained
  1336. through reading literature on facial animation. The anatomy of the
  1337. face along with basic theories on facial expressions are explained.
  1338. The report then looks at the history of facial animation, outlining
  1339. different methods and their benefits. Most of the information is based
  1340. on work by Fred Parke and Keith Waters.
  1341.  
  1342. Two methods of digitising facial data were used. One method used two
  1343. right angled photographs. The photographs were scanned into a Personal
  1344. Iris and displayed on the screen. A program, facesave, was used to
  1345. record the 3-d data point positions and the facial topology. 
  1346. This
  1347. method gave quick and dirty, but still satisfactory results. The
  1348. second method used photos taken from slightly different positions.
  1349. Slides of these photos were put into an analytical stereo digitiser to
  1350. record the facial data. Once these points were recorded, a program was
  1351. written convert the data into a suitable form for triangulation. A few
  1352. more adjustments were made to the data before it could be used. A full
  1353. description of both methods and copies of the program are included in
  1354. the project report.
  1355.  
  1356. The project was a success in that it gave insights into what is
  1357. involved in developing a system for facial animation. Our supervisor,
  1358. Andrew Marriott, made contact with Fred Parke, who kindly sent a copy 
  1359. of his fascia model to us. Andrew wrote a program to manipulate the
  1360. fascia data, as well as our facial data. This has been made available
  1361. for anonymous ftp through the Curtin University computer network.
  1362.  
  1363. Since the pilot project, work has continued on facial animation at
  1364. Curtin. The fascia program has been improved upon, it can move each
  1365. side of the face independently and has a more elaborate interface. 
  1366. Andrew Marriott has been using fascia to record an animated
  1367. introduction for the Artificial Intelligence and Simulation
  1368. conference 1992 which is being
  1369. held in Perth. He is using a video of a person going through the
  1370. required movements as a guide for positioning the face for each
  1371. frame.
  1372.  
  1373. I have had some contact with Waters over the last few months. He has
  1374. given some advice and references to help my thesis along. Other people
  1375. have been very helpful. Steve Franks has given information about what
  1376. is available in facial animation and who else is working in the area.
  1377. His versions of Waters' anatomical facial model are available for
  1378. anonymous ftp. Email addresses and ftp sites are in appendix ****.
  1379.  
  1380. As an aid to my research I will be attending SIGGRAPH 1992 in Chicago. I
  1381. hope to be able to meet up with other people working in facial
  1382. animation while there. There will be a special panel on animating
  1383. human figures that I expect will be highly informative.
  1384.  
  1385.  
  1386.  
  1387.  
  1388. Research Outline
  1389.  
  1390. The final product from this thesis will be a facial animation system that
  1391. will be speech driven using text files or real time  audio input. At 
  1392. this point, it is difficult to judge how sophisticated the system will be.
  1393. The animation programs that my thesis will use will undergo some 
  1394. modifications, but, on the whole,
  1395. they are already well suited to this application. 
  1396. The handling of audio 
  1397. input will have to be approached from scratch. There are many different 
  1398. methods for carrying out speech recognition, many of them requiring 
  1399. specialised hardware. Thus, the available resources will be a constraint 
  1400. on the finished product. 
  1401.  
  1402. This thesis will serve as a basis for further research into facial animation
  1403. at Curtin. One of the proposed applications for the system is to improve the 
  1404. user interface for communications between computer users. Instead of reading 
  1405. a text message, the user will see and hear the message as it is relayed by
  1406. a talking head. This is a new area of research with many possible
  1407. applications. Thus, any new ideas coming from the research will help in
  1408. the world-wide search for more efficient and robust means of automating 
  1409. speech synchronisation.
  1410.  
  1411.  
  1412.  
  1413. Proposed Research
  1414.  
  1415. My work will involve adding new features to existing programs. The animation
  1416. systems developed by Fred Parke and Keith Waters are available for public
  1417. use, and will provide a base for my research. Both of these systems are 
  1418. stand-alone animation systems, and will need to be altered to suit my thesis.
  1419. There are several speech driven facial animation systems that have already
  1420. been developed in research centres around the world. These systems were
  1421. built by people under the wing of major companies, British Telecom and DEC,
  1422. so, although it is possible to build a very sophisticated system, the
  1423. resources I have are not comparable with those of other researchers in this 
  1424. area. My system will be a simplified version of these elaborate systems.
  1425. I will be using the information that the developers of these systems have 
  1426. given in conference papers as a guide on how to create a similar system.
  1427.  
  1428. I plan to carry out my research in four stages. Through all of the stages of my research, I will be 
  1429. be making changes to the animation systems that I use. These
  1430. alterations will aim to make the system more efficient, adapt the user
  1431. interface to my needs and give debug/trace information. The proposed
  1432. stages are detailed below:
  1433.  
  1434. Stage 1: Find information about phonemes and the basic facial expressions. 
  1435. Implement this information as a series of "macro-movements" to give a higher 
  1436. (more abstract) level of control over facial movements. 
  1437.  
  1438. The macro's must be able to work concurrently with each other so
  1439. complex expressions can be made. For example, a smile macro could go
  1440. for a full sequence of animation while other macro's are used to
  1441. implement movements for speech. A macro for blinking will produce
  1442. blinking at random times to give a more natural feel to the model. The
  1443. time period for each macro will have to be included in the macro
  1444. call.
  1445.  
  1446. Stage 2: Set the system up so that the macro-movements can be accessed via 
  1447. a text file of phonemes.
  1448.  
  1449. For each macro, there will be a corresponding phoneme or action. I
  1450. will try to find a fairly "standard" notation for phonemes to use in the text
  1451. file. Meaningful names (smile, frown, wink) will be used for the 
  1452. other macros.
  1453.  
  1454. Stage 3: Link the animation system up with a speech synthesiser. Both systems
  1455. will be taking textual input. 
  1456.  
  1457. Hopefully the phoneme notation used in Stage 2 for text file input will 
  1458. be fairly similar to that used by available speech synthesisers. In
  1459. any case, the conversion should be fairly trivial. An interactive method
  1460. of input for facial expressions to allow manipulation of
  1461. the face during speech.
  1462.  
  1463. Stage 4: Investigate and implement audio input for the facial animation 
  1464. system. The sophistication of the system's phoneme recognition is dependent
  1465. on the resources available. 
  1466.  
  1467. The base level for direct audio input would be to use volume as the
  1468. only variable and simply open the mouth wider as the input becomes
  1469. louder. As I continue to research this area, I hope to find more
  1470. information on how speech recognition is done, and how it can be
  1471. implemented using the resources I have available.
  1472.  
  1473. The work will be done on a Silicon Graphics Indigo, making use of the 
  1474. audio and graphics libraries it has available. Theoretical input and 
  1475. advice will come from conference proceedings as well as email contact
  1476. with other researchers. Personal interviews with experts in the 
  1477. areas of speech synthesis and recognition, digital signal processing (DSP)
  1478. and graphics areas will also be undertaken as is necessary.
  1479.  
  1480.  
  1481.  
  1482. References
  1483.  
  1484.  
  1485. Anderson S.E. (1990) \fIMaking a pseudopod: an application of computer graphics imagery. \fP\^Proc. Ausgraph '90: 303-311.
  1486.  
  1487. Bergeron P. (1988) \fIArtificial intelligence and computer animation.  \fP\^Ausgraph '88: 105-106.
  1488.  
  1489. Bergeron P. (1990) \fI3-D character animation on the symbolics system\fP\^. 3-D
  1490. Character animation by computer (course notes), AUSGRAPH 1990, Melbourne:
  1491. Australia.
  1492.  
  1493. An informal description of the author's method of character animation. He uses
  1494. two graphics systems: S-Geometry for space-related work (modelling) and
  1495. S-Dynamics for time-related work (animation). This is a good article to aid in
  1496. understanding what's involved in character animation, and is an example of a
  1497. methodical approach to the problem.
  1498.  
  1499.  
  1500. Bergeron P. (1985) \fIControlling facial expressions and body movements in the
  1501. computer-generated animated short "Tony de Peltrie"\fP\^, tutorial, SIGGRAPH 1985.
  1502.  
  1503. Outlines a method of character animation. The body is animated by getting data
  1504. from a clay model, and then manipulating the resulting hierarchical skeleton
  1505. using the TAARNA 3-D graphics system. The facial animation was done by mapping
  1506. data from expressions made by a human model onto the character's face. All of
  1507. the speech phonemes were photographed and transferred onto the character.
  1508.  
  1509. DiPaola S. (1991) \fIExtending the range of facial types. \fP\^The Journal of Visualization and Computer Animation 2 (4): 129-131.
  1510.  
  1511. Doak R., F. Fleming, V. Hall and H.Hillyer (1991) \fIFacial animation and speech synthesis. \fP\^CGI 351 Report, School of Computing Science, Curtin University of Technology: Perth.
  1512.  
  1513. Eaves J. and A. Paterson (1990) \fIFACE - Facial automated composition and editing. \fP\^Ausgraph '90: 329-333.
  1514.  
  1515. Ekman P. and W.E. Friesen (1978) \fIInvestigators Guide for the Facial Action Coding System. \fP\^Consulting Psychologist Press, Palo Alto: California.
  1516.  
  1517. Ekman P. and W.E. Friesen (1975) \fIUnmasking the Face.\fP\^ Prentice-Hall Inc.,
  1518. Englewood Cliffs: New Jersey.
  1519.  
  1520. Aimed at helping people to recognise facial expressions in others. Gives lots
  1521. of photographs of the six basic expressions: surprise, fear, disgust, anger,
  1522. happiness and sadness. Points out the facial movements that make up each of
  1523. the expressions. Also shows what happens when the movements are conflicting,
  1524. which indicates deceit.
  1525.  
  1526. Ekman P. and W.E. Friesen (1977) \fIManual for the Facial Action Coding
  1527. System.\fP\^ Consulting Psychologist Press, Palo Alto: California.
  1528.  
  1529. We have been unable to find this reference. This system is said, by Parke, to
  1530. be the best basis for complete expression models. Is referenced in just about
  1531. every article. It catalogues around 55,000 distinguishable facial expressions,
  1532. with six primary expressions being named. (see "Unmasking the Face", Ekman and
  1533. Friesen, 1975) These expressions are the result of the changes made to 66
  1534. Action Units. Most systems only use about 50 of these units in animating the
  1535. face.
  1536.  
  1537.  
  1538. Ekman P. and H. Oster (1979) \fIFacial expressions of emotions.\fP\^ In: Annual
  1539. Review of Psychology, 30, pp. 527-554.
  1540.  
  1541. Goes into the theoretical side of facial expressions. Refers to studies on the
  1542. cross-cultural aspect of expressions; ie. interpretation of expressions is
  1543. independent of culture. Also goes into the learning of expressions by
  1544. children. Looks at ways of measuring the face and its movements, and their
  1545. accuracy. The article has five pages of references for psychology papers on
  1546. facial expressions.
  1547.  
  1548. Gasper E. (1988) \fIGetting a head with hyperanimation. \fP\^Dr Dobb's Journal of Software Tools 13 (7): 18.
  1549.  
  1550. Gross D. (1991) \fIMan and Machine. \fP\^In: Computer Graphics World, May 1991, pp47-50.
  1551.  
  1552. Kendall F.P. and E.K. McCreary (1983) \fIMuscles Testing and Function\fP\^ 3rd
  1553. edition. Williams and Wilkins, Baltimore: USA.
  1554.  
  1555. Goes through each area of the human anatomy, illustrating the normal functions
  1556. of all the muscles in the body. There are diagrams and descriptions for each
  1557. muscle group, showing what movements are controlled by each muscle. Of primary
  1558. interest is chapter seven which covers the muscles of the face, eyes and neck.
  1559. There are a lot of pictures of models' faces to illustrate what effect each
  1560. muscle has on the face.
  1561.  
  1562.  
  1563. Lasseter J. and S. Rafael (1987) \fIPrinciples of traditional animation applied
  1564. to 3D computer animation.\fP\^ In: Proceedings of SIGGRAPH July 1987 , pp. 35-44.
  1565.  
  1566. Describes the basic principles of traditional 2D hand-drawn animation and their
  1567. application to 3D computer animation. Describes the evolution of the
  1568. traditional methods and how they effect 2D animation. Goes on to say how these
  1569. methods can improve the quality of the current 3D computer animation.
  1570.  
  1571. Lewis J (1991) \fIAutomated lip-synch: background and techniques. \fP\^The Journal of Visualization and Computer Animation 2 (4): 118-122.
  1572.  
  1573. Marriott A. (1991) \fIPersonal interviews.\fP\^ Lecturer: Computing Science, Curtin
  1574. University, Perth: Australia.
  1575.  
  1576. A slightly prickly fellow with a weakness for chocolate cake. Gave us
  1577. invaluable advice about the project before threatening us with garden gnomes.
  1578. Wrote the conversion programs: Facesave, Face2mog, Face2fascia. Will do
  1579. "Anything, Anywhere, Anytime" - for a price.
  1580.  
  1581. Marriott A. (1990) \fIComputer Graphics 252 - Course Notes.\fP\^
  1582. Curtin University, Perth: Australia.
  1583.  
  1584. Masden R. (1969) \fIAnimated Film: Concepts, Methods, Uses.\fP\^ Interland,
  1585. New York: USA.
  1586.  
  1587. Cited as a reference by Parke in his speech synchronisation paper. Aimed more
  1588. at traditional animation, but can give helpful hints to computer animators.
  1589.  
  1590.  
  1591. Mitchell A.G. (1964) \fISpoken English.\fP\^ McMillan and Co. Ltd. London:
  1592. England.
  1593.  
  1594. An Australian text about phonetics. Gives the symbols and sounds used in
  1595. pronunciation. Shows the movements involved in speech and outlines the more
  1596. complex attributes of human speech. An easy to read text book on the spoken
  1597. word.
  1598.  
  1599. Montgomery B. (1991) \fIPersonal interviews & help with photography &
  1600. photogrammetry techniques.\fP\^ Lecturer: Surveying and Cartography, Curtin
  1601. University, Perth: Australia.
  1602.  
  1603. A man with a passion for photography and an ultimate desire to digitise a
  1604. woman's body. Was involved in the creation of the big ram on the tourist
  1605. bureau in Wagin and is the man to see about Photogrammetry.
  1606.  
  1607. Morishima S. and H. Harashima (1991) \fIA natural human-machine interface
  1608. with model-based image synthesis scheme. \fP\^In: Proc. Picture Coding Symposium 1991, Tokyo: Japan, pp 319-322.
  1609.  
  1610. Morris D. (1982) \fIManwatching,\fP\^ Triad Paperbacks, London: Great Britain.
  1611.  
  1612. A comprehensive guide to human behaviour. Gives analysis of countless 
  1613. observations in many different countries of the way people act. Has 
  1614. plenty of pictures and virtual encyclopaedia of information on the human race.
  1615.  
  1616.  
  1617. Naftel A.J. and J.C. Boot (1991) \fIAn iterative linear transformation
  1618. algorithm for solution of the collinearity equations.\fP\^ In: Photogrammetric
  1619. Engineering & Remote Sensing, 57(7), July 1991, pp. 913-919.
  1620.  
  1621. Describes a means of solving collinearity equations which gives accurate
  1622. results while using less computer resources than traditional methods. Gives
  1623. all the equations required to use the methods outlined in the article, as well
  1624. as comparing the root-mean-square error when working with subject matter of
  1625. differing complexity. Concludes that the iterative linear transformation
  1626. procedure gives fewer errors than the direct linear transformation method.
  1627.  
  1628. Parke F.I. (1975a) \fIA model for human faces that allows speech synchronized
  1629. animation.\fP\^ In: Computer and Graphics, 1, 1975, pp. 3-4.
  1630.  
  1631. Describes a parametric model for the face which is capable of lip movement and
  1632. expression animation. The areas affected by the parameters are the eyes,
  1633. eyelids, eyebrows, lips and the jaw. This is not a muscle model; it uses
  1634. interpolation between resting and final positions, but it does allow for more
  1635. than one parameter to affect an area at a time. The model is synchronized in
  1636. accordance with a timed speech sequence.
  1637.  
  1638.  
  1639. Parke F.I. (1975b) \fIMeasuring three-dimensional surfaces with a
  1640. two-dimensional tablet.\fP\^ In: Computer and Graphics, 1, 1975, pp.
  1641.  5-7.
  1642.  
  1643. Describes a method for measuring a 3-D object using two photos and a
  1644. digitising tablet. The corresponding points on each photograph are digitised
  1645. and matched up. There needs to be at least six points of known position to get
  1646. the solution of a system of equations which will give the 3-D co-ordinates of
  1647. each point on the surface.
  1648.  
  1649.  
  1650. Parke F.I. (1982) \fIParameterized models for facial animation.\fP\^ In: IEEE
  1651. Computer Graphics and Applications, 2(9), Nov 1982, pp. 61-68.
  1652.  
  1653. A more advanced version of his 1975 model. Gives a good outline of things to
  1654. think about when developing and parameterising a model. Still uses
  1655. interpolation of expression parameters between extreme positions for each part
  1656. of the face. Thus it is not a muscle model like Waters'. Conformation
  1657. parameters allow the actual structure of the face to change, eg. to
  1658. shorten the nose.
  1659.  
  1660. Parke F.I. (1974) \fIA Parametric model for Human Faces. \fP\^PhD dissertation, order   number 75 -8697, University of Utah.
  1661.  
  1662. Pease A. (1981) \fIBody Language: how to read others' thoughts by
  1663. their gestures.\fP\^ Camel Publishing: North Sydney.
  1664.  
  1665. Porter S. (1990) \fIMade for the stage: synthetic actors are getting better. \fP\^Computer Graphics World 13 (8): 60.
  1666.  
  1667. Press L. (1990) SIGGRAPH '89 - tomorrow's PC today. Communications of
  1668. the ACM 33 (3): 274.
  1669.  
  1670. Reeves W.T. (1990) \fISimple and complex facial animation: case studies.\fP\^
  1671. AUSGRAPH 1990, Melbourne: Australia.
  1672.  
  1673. Gives examples of facial animation using different methods. Is concerned with
  1674. traditional animation, as well as simulation of the facial structure. The image
  1675. was recorded using a 3-D digitiser on a clay model. The animation of the body
  1676. was done using a hierarchical skeleton. The facial animation was done using
  1677. the techniques outlined by Waters in his 1987 article.
  1678.  
  1679.  
  1680. Robertson B. (1988) \fIMike the talking head. \fP\^Computer Graphics World 11 (7): 57.
  1681.  
  1682. Spence A.P. and E.B. Mason (1983) \fIHuman Anatomy and Physiology.\f P\^
  1683. Benjamin/Cummings Publishing Co., Menlo Park: California.
  1684.  
  1685. Contains diagrams and pictures of human anatomy. Has good pictures of skeletal
  1686. and muscular systems, and goes through a description of the actions
  1687. of all the muscles.
  1688.  
  1689.  
  1690. Terzopoulos, D. and K. Waters (1990) \fIAnalysis of facial images using
  1691. physical and anatomical models.\fP\^ IEEE Proceedings of ICCV conference, Osaka: Japan, pp. 727-732.
  1692.  
  1693. Creates a tri-layered tissue model to simulate the properties of the muscles
  1694. and skin in the face. Uses the FACS theory as a base to a hierarchical system
  1695. of controlling facial movements. Also shows how this system can be used to
  1696. imitate the movements of a real face, in real time, by tracking deformable
  1697. contours on the face.
  1698.  
  1699.  
  1700. Wasser J.A. (1985) \fIEnglish to Phoneme Translation, Public Domain
  1701. Software.\fP\^ Littleton: USA.
  1702.  
  1703. A public domain speech synthesiser. Good to get an idea of how they
  1704. work, but doesn't give a very realistic output.
  1705.  
  1706.  
  1707. Waters K. and D. Terzopoulos (1991) \fIModeling and animating faces
  1708. using scanned data. \fP\^The Journal of Visualization and Computer
  1709. Animation 2 (4): 123-128.
  1710.  
  1711. Waters K. (1990) \fISIGGRAPH tutorial notes. \fP\^SIGGRAPH 1990. (47 pages)
  1712.  
  1713. Waters K. (1987) \fIA muscle model for animating three-dimensional
  1714. facial expression.\fP\^ In: Proceedings of SIGGRAPH, July 1987, pp. 17-24.
  1715.  
  1716. Outlines a muscle model for the animation of the face. States that
  1717. this gives
  1718. a much wider vocabulary of expressions to the model than traditional
  1719. methods
  1720. which hard-code the expressions which are available. Gives a
  1721. parameterised
  1722. model based on Action Units that control groups of muscles. Aims to
  1723. produce a
  1724. model which can produce the six basic expressions and be tested by
  1725. seeing how
  1726. well it matches up to Ekman and Friesen's FACS system.
  1727.  
  1728.  
  1729. Welsh W.J. et al (1990) \fISynthetic face generation for enhancing a user
  1730. interface. \fP\^In: Proceedings of Image Com 1990, 1st International
  1731. Conference dedicated to professional image chains, Bordeaux:France, pp 177-182.
  1732.  
  1733. White T. (1986) \fIThe Animators Workbook.\fP\^ Watson-Guptill
  1734. Publications, New York: USA.
  1735.  
  1736. An informative text on the basic principles of animation. Good
  1737. pointers on how
  1738. to make things look realistic. Describes how to synchronise animation
  1739. with a
  1740. soundtrack and what to emphasise when animating the face.
  1741.  
  1742.  
  1743. Williams L. (1990) \fIPerformance-driven facial animation.\fP\^ In:
  1744. Proceedings of SIGGRAPH Aug 1990, pp. 235-242.
  1745.  
  1746. Gives a method of putting control points on an actor's face and then
  1747. tracking
  1748. and recording the movements to use in facial animation. Tracking is
  1749. done in
  1750. 2-D and then projected to the model. Removes the need for computer
  1751. inbetweening
  1752. by actually recording the facial movements when the expression
  1753. changes.
  1754. Touches on a means of setting up mirrors to give two views of the face
  1755. which
  1756. can be recorded by one camera. This image could then be transformed
  1757. into 3-D co-ordinates.
  1758.  
  1759.  
  1760. Wild (1987) \fIWild Aniolyst BC2 Instruction Manual,\fP\^ Release 5.10.
  1761. User guide for the BC2 stereoscopic digitiser.
  1762.  
  1763. Yau D. (1988) \fIA texture mapping approach to 3-D facial image
  1764. synthesis. \fP\^In: Computer Graphics Forum 7(2): 129-134.
  1765.  
  1766.  
  1767.  
  1768. Equipment Used
  1769.  
  1770.  
  1771. The following equipment was used in the pilot program and in the work
  1772. done on facial animation since then.
  1773.  
  1774. Canon T70 50mm camera (2) (Dept of Surveying and Cartography)
  1775. Tripods and bar (Dept of Surveying and Cartography)
  1776. Theodolite      - to work out where to aim the cameras. (Dept of Surveying and Cartography)
  1777. Plumb bob       - to aid accuracy of equipment placement. (Dept of Surveying and Cartography)
  1778. Measuring tape  - to align camera angles.
  1779. Stool           - for person being photographed to sit on.
  1780. Marking pen     - for positioning of equipment.
  1781.  
  1782.  
  1783.  
  1784.  
  1785. Wild Aniolyst BC2 analytical digitiser. (Dept of Surveying & Cartography)
  1786. Black and white slides  - same view, slightly different eye position.  (processed by education centre)
  1787.  
  1788.  
  1789.  
  1790. Epson  Scanner          - 200 dots per inch. (Computing Centre)
  1791. Apple Macintosh         - to access scanner and transfer to our system. (Computing Centre)
  1792. 8"x10" enlargements     - views at right angles. (processed by education centre)
  1793.  
  1794.  
  1795.  
  1796. Silicon Graphics 4D70GT workstation - 96 bitplanes, res: 1280x1024.  (School of Computing Science)
  1797. Silicon Graphics Indigo workstation. (School of Computing Science)
  1798. Apple LaserWriter II (School of Computing Science)
  1799.  
  1800.  
  1801.  
  1802. softsurv        - calculates the control points for the BC2.
  1803. lens.exe        - to work out the distortion of the photos for the 3-D digitiser, written by Bruce Montgomery.
  1804. convert         - to transform the output data from the digitiser written by Russell Doak.
  1805. TGM             - to triangulate the data from convert by Michael Evans.
  1806. tin2mog         - to convert from TGM output to MOG input written by Russell Doak.
  1807. tin2fascia      - Converts from TGM output to Fascia input written by Russell Doak
  1808.  
  1809.  
  1810.  
  1811. Facesave        - to record data points written by Andrew Marriott.
  1812. face2mog        - to convert data to mod format written by Andrew Marriott.
  1813. face2fascia     - to convert data to fascia format written by Andrew Marriott.
  1814.  
  1815.  
  1816.  
  1817. fascia                  - facial animation program by Frederick Parke.
  1818. mog                     - 3-D data display system by Phil Dench
  1819. phoneme                 - speech synthesis program by J. Wasser.
  1820. troff                   - text editor.
  1821. library routines        - standard and non-standard on the Iris workstation.
  1822.  
  1823.  
  1824. Email Contacts.
  1825.  
  1826. These wonderful people have given me invaluable help with my research.
  1827.  
  1828.  
  1829.                 amber@jaguar.esd.sgi.com - Amber Denker
  1830.                 bamberg@yoda.eecs.wsu.edu - Robert Bamberger
  1831.                 daniel@unmvax.cs.unm.edu - Tommie Daniel
  1832.                 gt8479a@prism.gatech.edu - Ben Watson
  1833.                 jason@monet.UWaterloo.ca - Jason Fischl
  1834.                 kaminski@netcom.netcom.com - Peter Kaminski
  1835.                 mnetor!lsuc!array!colin@uunet.uu.net - Colin Plumb
  1836.                 pieper@MEDIA-LAB.MEDIA.MIT.EDU - Steve Pieper
  1837.                 platt@cs.swarthmore.edu - Steve Platt
  1838.                 raghavac@cis.ohio-state.edu - Saty Raghavachary
  1839.                 stevef@csl.sony.co.jp - Steve Franks
  1840.                 syau%aludra.usc.edu@usc.edu - Scott Shu-Jye Syau
  1841.                 thinman@netcom.netcom.com - Lance Norskog
  1842.                 waters@crl.dec.com - Keith Waters
  1843.                 welsh_w_j@bt-web.british-telecom.co.uk - Bill Welsh
  1844.  
  1845.  
  1846.