home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #20 / NN_1992_20.iso / spool / comp / arch / 9259 < prev    next >
Encoding:
Internet Message Format  |  1992-09-07  |  3.9 KB

  1. Path: sparky!uunet!cs.utexas.edu!swrinde!sdd.hp.com!scd.hp.com!hplextra!hpfcso!hpfcmdd!hpbbrd!hpbbn!hpcc05!hpdmd48!jgm
  2. From: jgm@hpdmd48.boi.hp.com (John McBride--in my own private Idaho)
  3. Newsgroups: comp.arch
  4. Subject: Error Correcting Memory
  5. Message-ID: <14900030@hpdmd48.boi.hp.com>
  6. Date: 4 Sep 92 16:57:54 GMT
  7. References: <Sep03.210730.68303@yuma.ACNS.ColoState.EDU>
  8. Organization: HP-Boise, ID
  9. Lines: 66
  10.  
  11. >I'm interested in learning about the difference in reliability
  12. >between parity memory and error checking-correction memory.  Can
  13. >anyone provide me with some pointers to related books/articles?
  14. >Or does anyone know straight off what the relative difference is?
  15.  
  16. I don't know of any papers on the subject (but then again I haven't looked),
  17. but you can figure out the difference by applying s(t)atistics.
  18.  
  19. Assumptions:  DRAM Soft error rate (due to alpha particles) = 1000 FIT
  20.               FIT = Failure In Time = expected # of failures in 10^9 hours
  21.               DRAM Chip failure rate = 100 FIT
  22.               Data protection is either byte parity or 32 bit word ECC  
  23.               (ECC over 32 bits requires 7 error detection/correction bits
  24.                for single bit correct and double error detect)
  25.               4Mbit (4M x 1) DRAMs in a 64Mbyte system = 128 data chips
  26.                    with either 16 parity chips or 28 ECC chips
  27.               All failures are independent
  28.               The ECC memory includes scrubbing, which continuously looks
  29.                  for single bit errors in memory and corrects them.  
  30.                  Scrubbing all but eliminates the possibility that two
  31.                  soft errors occur in the same word.  The failure mode
  32.                  would then be a soft error in a word that has a failed
  33.                  chip, assuming the failed chip is replaced with a week of
  34.                  the chip failing (MTTR = 1 week = 168 hours), which 
  35.                  also assumes that the system can notify an operator of 
  36.                  the failure.
  37.  
  38.  
  39. Parity protection calculations:
  40. Failure rate of 144 chips = 1000 * 144 = 144,000 FITs
  41. MTBF (Mean Time Between Failure) of 144 chips = 10^9 / 144,000 = 6944 hours 
  42. 1 Year = 365 days * 24 hours = 8760 hours
  43. AFR (Annual Failure Rate) = 1 - exp(-8760/6944) = 1 - .28 = 72%
  44. Expected number of failures per year = 8760 / 6944 hours = 1.26 failures 
  45. With parity, you would expect each system with 64Mbytes to lose data 
  46. at least once a year.  This is quite unacceptable for most computers 
  47. (except PCs) and data storage devices (disks, etc.)
  48.  
  49. ECC protection calculations:        
  50. Probability that a soft error occurs given that a chip has failed =
  51.      P(Soft error | Chip failure) = 1 - exp(-MTTR * (Number of chips - 1)
  52.                                                  / MTBF of each chip)
  53. MTBF (of soft errors) = 10^9 / 1000 = 10^6 hours 
  54. Number of chips = 156 chips
  55. MTTR (Mean Time To Repair) = 1 week = 168 hours 
  56. P(Soft error | Chip Failure) = 1 -exp(-168 * 155 / 10^6) = .0257
  57. Chip failure rate of 156 chips = 100 * 156 = 15,600 FITs
  58. MTBF of chip failures = 10^9 / 15,600 = 64,103 hours
  59. AFR of chip failures = 1 - exp(-8760/64,103) = 12.7%
  60. AFR of data loss = AFR of chip failues * P(soft error | chip failure)
  61.                  = .127 * .0257 = 0.3% AFR           
  62.  
  63. (Any errors in calculations, anyone?  As you can tell, I have spent a 
  64.  little time thinking about this, so I think I am an authority.  I would
  65.  be delighted to hear where I am wrong, if I am indeed wrong.) 
  66.  
  67. I believe that the assumed soft error FIT rate is low; the chip failure 
  68. FIT rate is high, and the MTTR is high.  All of which make the ECC 
  69. and parity reliability numbers come out closer than they probably are.
  70.  
  71. From these calculations, the ECC system is at least two orders of magnitude
  72. more reliable than a comparable parity protected system, 72% vs 0.3% AFR, 
  73. at least as measured by AFR. 
  74.  
  75. John McBride
  76. I speak for myself and not anyone else, etc., etc., etc.
  77.