home *** CD-ROM | disk | FTP | other *** search
/ Black Box 4 / BlackBox.cdr / textinfo / risks8c.arj / RISKS849.TXT < prev    next >
Encoding:
Text File  |  1989-04-09  |  23.5 KB  |  419 lines

  1. RISKS-LIST: RISKS-FORUM Digest  Wednesday 5 April 1989   Volume 8 : Issue 49
  2.  
  3.         FORUM ON RISKS TO THE PUBLIC IN COMPUTERS AND RELATED SYSTEMS
  4.    ACM Committee on Computers and Public Policy, Peter G. Neumann, moderator
  5.  
  6. Contents:
  7.   An unusual "common mode failure" in B-1B aircraft (PGN)
  8.   Gripen crash caused by flight control software (Mitchell Charity, Mike Nutley)
  9.   Airbus A320 article plus some comments (Nancy Leveson) [long]
  10.  
  11. ----------------------------------------------------------------------
  12.  
  13. Date: Wed, 5 Apr 1989 10:44:35 PDT
  14. From: Peter Neumann <neumann@csl.sri.com>
  15. Subject: An unusual "common mode failure" in B-1B aircraft
  16.  
  17. A rather bizarre common mode failure has been detected in the recent inspection
  18. of grounded B-1B bombers: there was a shortage of lubricant in a critical
  19. gearbox in 70 of the 80 planes inspected (with 17 more still to go).  The
  20. problem was found on the plane whose wing swept into the fuel tank
  21. (RISKS-8.46), which resulted in two shafts fractured and a leak along a fuel
  22. tank seam.  [San Francisco Chronicle, 5 April 1989, p. A7]
  23.  
  24. ------------------------------
  25.  
  26. Date: Wed, 5 Apr 89 01:15:31 EDT
  27. From: mcharity@ATHENA.MIT.EDU
  28. Subject: Gripen crash caused by flight control software
  29.  
  30. (quotes&inserts from FLIGHT INTERNATIONAL, 25 March 1989)
  31.  
  32. On Feb 2 the 1st prototype (of 5) of Sweden's Saab JAS39 Gripen fighter crashed
  33. on landing after its 6th test flight.  It impacted, broke left main gear,
  34. bounced, skidded and flipped.
  35.  
  36. ``Gripen is naturally unstable and has a triplex digital fly-by-wire system
  37. with a triplex analogue backup.''
  38.  
  39. Initial flight was ``some 18 months behind schedule'' and this was ``attributed
  40. to difficulties in proving the software for the flight control system.''
  41.  
  42. After the 1st flight, test pilot ``remarked that the control system seemed
  43. too sensitive and that the control laws would probably need to be changed.''
  44. On all flights ``the aircraft experienced problems with lateral oscillations.''
  45. [On the] ``last flight oscillation in pitch was also apparent.''
  46.  
  47. The accident investigation committee chairman ``confirms earlier assumptions
  48. that the flight control system was at fault.''
  49.  
  50. Chairman:
  51. ``The accident was caused by the aircraft experiencing increasing pitch
  52.  oscillations (divergent dynamic instability) in the final stage of landing,
  53.  the oscillations becoming uncontrollable.  This was because movement
  54.  of the stick in the pitch axis exceeded the values predicted when
  55.  designing the flight control system, whereby the stability margins were
  56.  exceeded at the critical frequency.''
  57.  
  58. Separate investigation by the JAS Industry Group:
  59. ``The control laws implemented in the flight-control system's computer had
  60.  deficiencies with respect to controlling the pitch axis at low speed.
  61.  In this case, the pilot's control commands were subjected to such a delay
  62.  that he was out of phase with the aircraft's motion.''
  63.  
  64. ``the company hopes to fly JAS39-2 before the end of the year.''
  65. ``Delivery of the first production aircraft [...] is now expected
  66.  in [1993, although typo said `1933'], instead of 1992.''
  67.  
  68. ------------------------------
  69.  
  70. Subject: Swedish Gripen Fighter Crash
  71. Date: Wed, 5 Apr 89 17:09:44 BST
  72. From: jpff@maths.bath.ac.uk
  73. Sender: jpff@maths.bath.ac.uk
  74.  
  75. From Datalink, April 3 1989 (a British paper for system/software)
  76. quoted in full without permission.
  77.  
  78.                 Swedish wind cuts fly-by-wires
  79.  
  80. Flight-control software has been blamed for the crash of the prototype
  81. Swedish Gripen fighter last February.  The preliminary report from the
  82. Swedish government's crash-investigation commission indifified the
  83. software's inability to cope with gusting winds and the oversensitivity of
  84. the control system as the prime reasons for the accident.
  85.  
  86. According to a spokesman for the commission, problems with the \pound 3.2
  87. billion project first arose in an earlier flight test.  "The preceeding test
  88. flight had shown up problems, but it's not a problem with the aircraft or
  89. with the flight control systems.  It's a software problem.
  90.  
  91. "The whole of the control system was too sensitive for the pilot; it
  92. operated too fast.  It was too easy for the pilot to go outside the
  93. flight-control envelope into unstable flight."
  94.  
  95. In common with many fighters currently being developed, the JAS39
  96. Gripen is designed to be inherently unstable to increase its
  97. manoeuverability.  It relies on the software to keep it under control.
  98.  
  99. "There were limitations on the flight control systems, but during the
  100. landing phase the wind was stronger than allowed for by these
  101. limitations.  The pilot had to try to overcome them."
  102.  
  103. A final report into the crash is due in May, but work has already
  104. started on the second prototype aircraft, including a modified version
  105. of the flight-control software.
  106.                                          Mike Nutley
  107. ------------------------------
  108.  
  109. Date: Wed, 05 Apr 89 13:54:29 -0400
  110. From: levesonelectron.LCS.MIT.EDU
  111. Subject: Airbus A320 article plus some comments
  112.  
  113. Here is the full Washington Post article, interspersed with a few of my
  114. comments.
  115.  
  116. WASHINGTON POST: OUTLOOK, 04/02/89
  117. Copyright (c) 1989 The Washington Post Co.
  118. By Jim Beatson
  119.  
  120.     [Jim Beatson writes on aviation issues for the Guardian and some other
  121.      British newspapers.  He is currently living in Canada.  NGL]
  122.          [Apparently either Beatson or the Post removed some more controversial
  123.          items from the original British appearance of this material.  PGN]
  124.  
  125.    IN JUNE, a new plane hits the American skies. Northwest Airlines will become
  126. the first U.S. carrier to take delivery of the European Airbus A320 -- the most
  127. advanced passenger aircraft in the world, and already one of the most
  128. controversial. In use since last May by British Airways and Air France, the
  129. medium-sized 150-seat twin-engine jet is the first airliner to have every
  130. function, from flight controls to toilet operation, directed by computer.
  131.    On June 26, 1988, two days after the third A320 went into service, it
  132. crashed while performing a low-level pass at a French air show. A woman and two
  133. children on board were killed. An investigation blamed the accident on pilot
  134. error, but the pilot faulted a number of factors including the aircraft's
  135. computers for providing incorrect altitude information. (The pilot, a senior
  136. Air France captain, was subsequently dismissed.) Since then, various unsettling
  137. reports have appeared in the European press, regarding: engines unexpectedly
  138. throttling up on final approach; inaccurate altimeter readings; sudden power
  139. loss prior to landing; steering problems while taxiing.
  140.  
  141.        [NGL:  It is interesting that the pilot was never believed about
  142.        the altimeter although there is not plenty of evidence to back up
  143.        his story.  I have noticed several things about evaluation of
  144.        accidents in general:
  145.  
  146.        1) Human error is always the first ascribed cause whenever a human
  147.        is involved in the system where an accident occurred.  However,
  148.        most accidents are multi-factorial.  If the altimeter is indeed
  149.        inaccurate, then the accident was only partially caused by the
  150.        pilot.  Humans tend to want simple answers to complex problems and
  151.        to be able to ascribe blame to some single cause.  There are, of
  152.        course, other factors at work in these oversimplifications such
  153.        as liability issues and misplaced faith in technology.  But seldom
  154.        are accidents the result of only one thing going wrong.  Actually,
  155.        the few times I have found this to be true (i.e., one thing is at
  156.        fault), it is a computer that is the primary agent.  Perhaps engineers
  157.        expect other things to fail and therefore design systems so that a
  158.        single failure cannot lead to an accident.  But since (as engineers
  159.        often tell me or write in system safety evaluations) computer software
  160.        does not fail...
  161.  
  162.        2) If a human cannot be blamed, then the hardware is.  The first
  163.        incident involving the Therac 25 occurred in Hamilton, Ontario.
  164.        The accident was blamed on a faulty microswitch (a "transient"
  165.        failure since nothing could be found wrong with the microswitch).
  166.        The fix for the problem was to put in a duplicate microswitch to
  167.        detect when the filter was not in place to correctly filter
  168.        the X-ray beam.  When the next incident occurred in Tyler,
  169.        Texas (again involving the misalignment of the filter), it was
  170.        believed that the burn suffered by the patient (who died from his
  171.        injuries 6 months later) was electrical.  Nobody believed that he
  172.        could have suffered an overdose or that the computer could be
  173.        involved.  The electrical system was checked out and found to be
  174.        OK so the machine was deemed safe.  Two weeks later another man
  175.        was overdosed in Tyler (he died two weeks after this) and FINALLY,
  176.        someone (at the hospital) decided the computer might be involved.
  177.        It was the physicist at the hospital who was able to reproduce the
  178.        problem and raise an alarm about the computer.  He had some difficulty
  179.        convincing anyone else about this.  The Therac 25 victim in Georgia
  180.        had great trouble convincing anyone that the Therac was responsible
  181.        for her severe burns.  This was true also for the first overdose in
  182.        Yakima.  Finally, when the second person was overdosed in Yakima
  183.        (and all the prior incidents had occurred including the detection
  184.        of an error in the software that could have caused the incidents),
  185.        people were willing to examine the possibility that this was a
  186.        software error (a different software error was given the blame
  187.        this time).  Why are people so reluctant to believe that the
  188.        computer may be at fault?]
  189.  
  190. [returning to the Washington Post article]
  191.  
  192.    Of course, the introduction of any new aircraft entails shake-out
  193. problems of one kind or another. But the A320's extensive use of
  194. computers raises a new set of questions: Are we ready to rely so heavily
  195. on complex software systems for such safety-critical applications as
  196. commercial flight?
  197.  
  198.    Bird on a Wire
  199.  
  200. The control system employed by the A320 is known as "fly by wire." FBW
  201. replaces the conventional stick and rudder controls with a series of
  202. computers and miles of electronic cables. Instead of the familiar
  203. control-column, the pilots use "side-sticks," a single lever resembling
  204. the joy sticks used in video games.
  205.    Sensing devices which gauge the aircraft's flight characteristics
  206. pass the information to the six color monitors that replace nearly all
  207. the traditional analog instruments and result, Airbus says, in 75
  208. percent fewer instruments than conventional configurations. On the
  209. uncluttered flight deck, the pilot on the right uses the side-stick with
  210. the right hand while the pilot on the left has a left-handed version.
  211. (On the left, pilots tend to push the aircraft to the right owing to the
  212. position of the forearm and wrist; that side-stick was adjusted to
  213. compensate.) But the computer system actually directs the control surfaces.
  214. Only the rudder and horizontal stabilizer -- both on the tail -- be
  215. mechanically directed by the pilot.
  216.    All other flight controls are managed by the electrical flight-
  217. control system (EFCS), which contains three spoiler/elevator computers
  218. (SEC), two elevator/aileron computers (ELAC) and the flight-augmentation
  219. computer that oversees stability, limiting and protection functions. The
  220. engines and throttles are managed by the full-authority digital engine-
  221. control (FADEC) computers. The EFCS uses "dissimilar redundancy." That
  222. is, computers that are designed to back each other up are of different
  223. brands, have different microprocessor types and are supplied by
  224. different vendors -- all to minimize the likelihood of identical hardware
  225. parts failing at the same time. And different programmers were employed
  226. to write each of the parallel sets of software. Moreover, each computer
  227. is divided into two physically separate units with "segregated" power
  228. supplies.
  229.  
  230.       [NGL:  There were different programmers.  Were there different
  231.        requirements specifications?  How about design specifications?
  232.        How much detailed design information was provided to the programmers?]
  233.  
  234.    The EFCS is designed to fly within a theoretical "flight
  235. envelope" -- permissible ranges for various maneuvers -- thus providing
  236. computer-monitored protection against windshear forces, overload or
  237. overspeed conditions. If the pilot were to, say, allow the speed to drop
  238. toward the stall point, the computer would sound alarms and
  239. automatically increase the power.
  240.    In the event that two computers should disagree, one automatically
  241. shuts itself down and its tasks are carried out by the other. For
  242. example, if one unit directed the flaps to be partly extended and its
  243. monitoring software expected full flap extension, then the first unit
  244. would automatically shut itself down and its functions would be passed
  245. over to the other. The pilots' display monitors would tell them what had
  246. happened. Finally, each of the five flight-control-surface computers is
  247. capable of performing all of the essential tasks of the others as well
  248. as its own tasks.
  249.  
  250.       [NGL:  If two computers disagree, how is it determined which computer
  251.        to shut down?  It does not sound like the pilots do this, they are
  252.        just told about the event afterward (and may not have the information
  253.        necessary to make this decision anyway).   So how is the decision
  254.        made?  How do they know that the monitor is correct and the other
  255.        one is not?]
  256.  
  257.    The Airbus A320, of course, is not the first civilian aircraft to use
  258. computerized control. Boeing's 757 and 767, for example, have computer-
  259. activated spoilers; and Boeing had planned to use FBW technology in the
  260. 7J7 but subsequently deferred development. Joe Sutter, Boeing's chief
  261. engineer for the past 20 years, believes that "fly-by-wire is way
  262. overstated as to its benefits"; and as for the side-stick, system, "we
  263. have some reservations -- like what one pilot is doing is not obvious to
  264. the other."
  265.    "The main benefit of FBW," he says, "is to reduce weight and increase
  266. range. It will really boost safety. But fooling around with FBW to
  267. reduce [something like] tail size goes against the design philosophy I
  268. have always urged -- that you've got to design an aircraft which one day
  269. for some reason or other is going to get into a hell of a lot of trouble.
  270. " That means mechanical back-up systems for the main control surfaces.
  271. "What happens with FBW when the aircraft gets outside its control laws?
  272. Its going to leave the pilot in one hell of a lot of trouble -- for what?
  273. One-percent fuel burn?"
  274.    A great deal more than that, says Airbus, which believes it now
  275. enjoys a significant competitive advantage over Boeing and McDonnell
  276. Douglas in fuel and weight savings. An Air France official says that the
  277. Airbus A320 is 40 percent more fuel efficient than the old Boeing 727s
  278. they have replaced. He was expecting 8 to 9 percent better, "but it's a
  279. good result anyway."
  280.  
  281.    How Safe Is Safe?
  282.  
  283. But for all FBW's advantages, critics argue that its sophisticated
  284. computer system may be too far ahead of its time because of our
  285. relatively limited ability to test the reliability of software.
  286.    Airbus Industry executive Robert Alizart believes that the duplicate
  287. architecture "reduces the chances of a total system loss to an absolute
  288. minimum." But Martyn Thomas, chairman of Praxis Systems, which produces special
  289. high-reliability software for Britain's Air Force, believe such precautions
  290. offer no guarantees. "Errors get through," Thomas says.  "There may be common
  291. sources of error, such as a faulty specification, which cause the same mistakes
  292. in every version of the program. Identical errors may be made by independent
  293. teams. Testing only exercises a small proportion of the possible situations
  294. that the program may have to handle."
  295.    Peter Neumann, a computer scientist at S.R.I. International, a Menlo Park,
  296. Calif., think tank, is a specialist in software engineering who has documented
  297. hundreds of software failure cases in the aerospace and other industries.
  298. Neumann says, "There are very serious risks in reliance or software in
  299. safety-critical applications. A seemingly innocuous addition to the software
  300. could have disastrous effects not discovered in testing. Never trust anyone who
  301. says such failures can never happen."
  302.    The task facing testers is prodigious. "For even small amounts of software,"
  303. says Thomas, "the number of possible paths far exceeds the number which could
  304. realistically be tested. For example, a recent module comprising 100 lines of
  305. assembly code was analyzed and found to contain 38 million possible paths, of
  306. which 500,000 could be followed with valid input data."
  307.    Mike Hennell, head of Computational Mathematics at Liverpool University --
  308. an authority on software reliability -- has not examined the A320's software
  309. code. Still, he says: "I wouldn't get into an Airbus A320 or any fly-by-wire
  310. aircraft."
  311.    "We don't have the technology yet to tell if the programs have been
  312. adequately tested. We don't know what 'adequately tested' means. We can't
  313. predict what errors are left after testing, what their frequency is or what
  314. their impact will be. If, after testing over a long period, the program has not
  315. crashed, then it is assumed to be okay. That presupposes that they will have
  316. generated all of the sort of data that will come at it in real life -- and it
  317. is not clear that that will be true."
  318.    Indeed, scientists have been working for 15 years on software
  319. reliability models, writes John Musa of AT&T's Bell Laboratories in the
  320. February issue of IEEE Spectrum. And they are now "moving into practice
  321. and starting to pay off." But they "deal with average rather than
  322. specific behavior, since the random nature of program usage and fault
  323. introduction generates failures at random." In the case of an airline
  324. reservation system, for example, "it is impossible to predict the next
  325. specific input and hence the next specific failure. Average behavior,
  326. however, can be characterized."
  327.    The international design standard for airborne software systems (RTCA
  328. DO-178A) was developed by the Washington-based Radio Technical Commission for
  329. Aeronautics. Nancy Leveson, a specialist in software safety research and
  330. currently a visiting professor at MIT, says that DO- 178A is "not adequate for
  331. certifying commercial aircraft software. It lacks any mention of formal
  332. verification of safety, as required, for example, by the Department of Defense"
  333. which demands safety and hazard analysis.
  334.    The FAA does, however, oblige developers "to use certain accepted concepts
  335. for design and development," says Mike DeWalt, an aircraft computer software
  336. specialist with the FAA. Although FAA officials do not see all the programming
  337. ("obviously there's no way in the world that a review agency could look at that
  338. much code"), they do demand adequate testing and quality evaluation, and even
  339. sample the programmers' work.  "Basically, we take a slice through the whole
  340. system," says DeWalt. That is, pick a function like left aileron control and
  341. "follow it all the way down through testing and configuration management."
  342.    "I don't want to imply that manufacturers and subcontractors will not do
  343. their best," Leveson says. "After all, they have the liability, and I'm sure
  344. they are decent human beings who care about human life. The problem is that
  345. without external review, we are depending on the competence of the employees of
  346. these companies, and I am less sanguine about the general state of software
  347. engineering knowledge and practice in industry than I am about the good
  348. intentions of humans."
  349.    Daryl Pederson, deputy director of the FAA's Aircraft Certification Division
  350. and the man charged with certifying the A320, says of DO-178A, "The document
  351. recognizes that you can't test every situation you encounter." His British
  352. counterpart, Brian Perry, head of Avionics and Electrical Systems at the Civil
  353. Aviation Authority, agrees: "It's true that we are not able to establish to a
  354. fully verifiable level that the A320 software has no errors. It's not
  355. satisfactory, but it's a fact of life."
  356.  
  357.    Computers in the Sky
  358.  
  359. Nonetheless, FBW offers the pilot some real gains. In extreme situations
  360. such as suddenly encountering strong windshear, the computers
  361. instantaneously compensate. Gordon Gorbes, chief test pilot for Airbus,
  362. says, "If a pilot has to make violent changes to the aircraft's attitude
  363. in an emergency, then the computer will prevent the pilot pushing it
  364. past design strengths. For example, the computer would prevent the pilot
  365. putting it into a dive that might break off the tail." And FBW saves
  366. money for the plane's owner, by reducing hardware costs, keeping the
  367. aircraft at optimum fuel-saving trim and facilitating the switch from
  368. three- to two-person flight crews.
  369.    Many pilots flying the A320 have been enthusiastic in praising its
  370. handling and flying qualities. But some have complained about software
  371. problems and control irregularities. (The number of such complaints,
  372. according to Airbus' technical director, Bernard Ziegler, is small.) One
  373. problem reported by Air France, in a memo dated July 10, 1988 to Airbus,
  374. noted a software bug in its altimeter which measures the aircraft's
  375. height, a problem which has also been observed with British Airways'
  376. A320s. It is this problem that the pilot of the A320 that crashed at the
  377. small French airport at Mulhouse last June claimed contributed to the
  378. accident.
  379.  
  380.       [NGL:  And which no one believed at the time.]
  381.  
  382.    There are various ways to fix a bug or add to a plane's installed
  383. software. Complete boxes containing replacement hardware and software
  384. can be exchanged by Airbus Industries. For carriers like Northwest, with
  385. 100 aircraft on order, this option would be expensive. So reprogramming
  386. could take place at a keyboard in the aircraft, conducted by Airbus or
  387. Northwest engineers. With over 640 aircraft on order around the world
  388. using two different makes of engine and a variety of sub-systems, the
  389. problem of "configuration management," as it is termed in the computer
  390. industry, becomes apparent.
  391.  
  392.     [NGL:  Note that a configuration management problem involving
  393.      a navigation computer was implicated in the Antarctica crash of
  394.      the Air New Zealand plane into Mount Erebus.  Of course, planes
  395.      are not sent back to the factory for all of the hardware design
  396.      changes that occur -- usually the maintenance crew handles
  397.      them, Is the problem different for software?]
  398.  
  399.    So does the problem of anticipating a near-infinitude of real-life
  400. contingencies. In 1983 a United Airlines Boeing 767 went into a four-
  401. minute powerless glide after the pilot was compelled to shut down both
  402. engines because of overheating. The National Transportation Safety Board
  403. discovered that the plane's computerized engine-management system had
  404. ordered the engines to run at a relatively slow speed to optimize fuel
  405. efficiency. In the flight's particular atmospheric circumstances,
  406. however, this had allowed ice to build up on some engine surfaces,
  407. reducing the flow of air and causing the engines to work harder and
  408. overheat.
  409.    "The problem is that the designer didn't anticipate all the possible
  410. demands the software would face," says Hennell. "The computer will
  411. always do something. But it will only do the correct thing if it has
  412. been programmed for that situation."
  413.  
  414. ------------------------------
  415.  
  416. End of RISKS-FORUM Digest 8.49
  417. ************************
  418. -------
  419.