home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #18 / NN_1992_18.iso / spool / comp / protocol / nfs / 2120 < prev    next >
Encoding:
Internet Message Format  |  1992-08-20  |  5.3 KB

  1. Path: sparky!uunet!olivea!decwrl!sgi!rhyolite!vjs
  2. From: vjs@rhyolite.wpd.sgi.com (Vernon Schryver)
  3. Newsgroups: comp.protocols.nfs
  4. Subject: Re: NFS corruption discovery
  5. Summary: you've read it all before
  6. Message-ID: <or7a4f8@rhyolite.wpd.sgi.com>
  7. Date: 21 Aug 92 04:41:43 GMT
  8. References: <1992Aug19.225010.18306@den.mmc.com> <1992Aug21.015953.10705@decuac.dec.com>
  9. Organization: Silicon Graphics, Inc.  Mountain View, CA
  10. Lines: 94
  11.  
  12. Just to bore everyone, I'll repeat what I said before.  Please note
  13. that I said all of this before:
  14.  
  15.  1. UDP checksums are good.  There is no current performance reason to
  16.     turn them off.
  17.  
  18.  2. all else equal, NVRAM is more reliable than naked DRAM or even
  19.     UPS-backed DRAM.  NVRAM is less reliable than a synchronous write
  20.     to a non-caching disk.
  21.  
  22.  3. things are never equal, and the reliability of an NFS server is
  23.     usually, and always in my experience since leaving my previous
  24.     position in 1986, much more dependent on other things than the
  25.     volatility of its memory.
  26.  
  27.  4. Ultrix has had NFS bugs.  That should surprise no one.
  28.     We have had NFS bugs.  That should surprise no one.
  29.     To the best of my knowledge, just watching recent reports in the
  30.     SGI bug tracking systems, whichever versions of Ultrix are commonly
  31.     connected today to SGI boxes are a little buggier than current SGI
  32.     versions.  Given the relative age of the implementations (SGI's
  33.     first shipped in 1986), that should surprise no one.  I have no
  34.     doubt that SGI and DEC will reverse that in the future, making the
  35.     SGI code the buggier, and then reverse it again, as both
  36.     organizations add and remove bugs.  Such is life.
  37.  
  38.   5. Those Ultrix bugs that I've heard about, in my honest but perhaps
  39.     biased judgment, have caused customers grief that would not be
  40.     affected by an NVRAM acclerator or by async writes.  The same
  41.     applies to bugs in previous generations of SGI NFS code.  Because I
  42.     am conservative, I think that is likely to be true of both in the
  43.     future, that other problems affect reliability more than (a)sync
  44.     writes.
  45.  
  46.   6. Mr. Ranum is the fellow spreading FUD by equating UDP checksums
  47.     with async writes.  It does not matter which of the two is more or
  48.     less evil, dangerous or unsafe.  Equating UDP checksums with async
  49.     writes is as silly as equating either with using ECC instead of
  50.     parity protected memory, or with using a failsafe RAID instead of
  51.     single disk spindles.  Many things affect the cost, speed, and
  52.     reliability of a system, and it is simply self-serving nonsense to
  53.     say they are all the same.  Equating UDP checksums with async
  54.     writes is only FUD, conceivably, but probably not consciously
  55.     intended to sell more NVRAM packages.
  56.  
  57. Please recall the start of this thread.  Someone asked about file
  58. corruption in circumstances that clearly had nothing to do with
  59. server crashes, and so absolutely nothing to do with (a)sync writes.
  60. Why did Mr. Ranum drag in async writes?  Because he cares and is
  61. proud of his NVRAM, not because it was relevant.  He was, in his words,
  62. spreading FUD.
  63.  
  64. As I've observed before, it is a funny fact of life that those who are
  65. most offended by async NFS writes are those who sell hardware NFS
  66. accelerators which do "asynchronous writes to the real disk but
  67. syncrhonous to storage more stable than ordinary DRAM."  I think the
  68. connection is not greed, but the human tendency to think that your
  69. extra "value added" is absolutely required instead of only extra.
  70. NVRAM-async is less reliable than a straight write to a non-caching
  71. disk drive and more reliable than a write to UPS protected DRAM.  I
  72. trust no one disputes either of those facts.  I think the small
  73. increase in reliability among all 3 is not worth the cost of the
  74. hardware.  However, we looked at PrestoServ and decided not to support
  75. it, and so I might be as biased in my way as people at DEC, Sun, and
  76. Legato.
  77.  
  78. Someone else has observed that the phrase "stable storage" is an
  79. unintentional mis-use of an existing technical term.  B.Lampson coined
  80. the term in the literature years before NFS.  As far as I know, that
  81. technicanl meaning of "stable storage" has nothing to do with any part
  82. of any NFS implemenation anywhere from any organization.  The LADDIS
  83. committee has recently been trying to invent a new meaning for "stable
  84. storage" that somehow fits devices like PrestoServ.  I think that is an
  85. exercise in marketing wordsmithing, but then I'm biased.
  86.  
  87. Mr. Ranum asks that I defend async writes.  The most that seems
  88. appropriate or necessary is to observe that to the best of my
  89. knowledge, I can recall absolutely no customer who has said that the
  90. default of async-on should be changed.  I can recall absolutely no
  91. customer who has complained of lost data because of SGI async writes.
  92. Intellectually, I believe it has probably happened, but I do not know
  93. of even one case.  Regretably, I do know that some customers have lost
  94. data because of bugs in our NFS client and server code.  Because of my
  95. consistent position in the SGI developement organization since before
  96. the first SGI NFS release, I honestly believe that I have an accurate
  97. knowledge of the relative frequencies, and so of the relative dangers.
  98. The dangers of async writes are just not relevant for modern servers
  99. that rarely crash.
  100.  
  101. In 1985, no-UDP-checksums and sync-writes was the right combination for
  102. best speed and reliability.  Things have changed.
  103.  
  104.  
  105. Vernon Schryver,  vjs@sgi.com
  106.