home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #26 / NN_1992_26.iso / spool / comp / benchmar / 1691 < prev    next >
Encoding:
Internet Message Format  |  1992-11-11  |  8.8 KB

  1. Xref: sparky comp.benchmarks:1691 comp.arch.storage:772
  2. Newsgroups: comp.benchmarks,comp.arch.storage
  3. Path: sparky!uunet!europa.asd.contel.com!darwin.sura.net!spool.mu.edu!sgiblab!sgigate!sgi!igor!jbass
  4. From: jbass@igor.tamri.com (John Bass)
  5. Subject: Re: Disk performance issues, was IDE vs SCSI-2 using iozone
  6. Message-ID: <1992Nov15.072855.3112@igor.tamri.com>
  7. Organization: TOSHIBA America MRI, South San Francisco, CA
  8. References: <36995@cbmvax.commodore.com> <1992Nov12.193308.20297@igor.tamri.com> <37043@cbmvax.commodore.com>
  9. Date: Sun, 15 Nov 92 07:28:55 GMT
  10. Lines: 150
  11.  
  12. >    First, I've only seen spurious drive errors once in my entire time
  13. >working with HD's
  14.  
  15. Most people don't see it ever ... they don't know what to look for. They
  16. just change components in the system until it works.
  17.  
  18. I've seen this problem atleast a hundred times ... the most recient was a few months
  19. ago when a local PC Repair shop was baffled by repeated "disk errors" during backup
  20. and no other time. Put a scope on the 12 volt line an it had nearly a volt
  21. of ripple when the tape drive was running ... in spec otherwise. The case before
  22. that was due to 3 disk drives ... average current on 12v was more than fine,
  23. they used sequenced startup to prevent excessive surge on power up. But when
  24. the brushless DC spindle motors all commutated at the same time (happended
  25. about every 5-6 minutes ... they drank the small output caps on the
  26. switcher dry. Added big cap to 12v and everything was happy.
  27.  
  28. Another problem I see that few people properly diagnose is cold startup
  29. thermal gradient failures. Nearly all disks drives are spec'ed for several
  30. deg C/hr temp gradient. From a chilly room temp to operating temp in 10 min
  31. is an effective 100 deg C/hr gradient ... many HDA's warp enough during this
  32. period to seriously off track ... and cause lost of data. Some off-track
  33. enough to partially overwrite ID's and Data in the next track, or atleast
  34. provide enough signal interference to make normal operation difficult.
  35. Many of the infield error rate problems I have seen have really been this
  36. problem ... solved by having the customer leave the machine on 24hrs/day.
  37.  
  38. I have a diagnostic for this which fails more 8-16 head drives than you
  39. might expect! Some fail in systems due to chassis thermal gradient stresses
  40. or cooling air flow differences, and work fine on the bench.
  41. The most receint case of this was also earlier this year ... for a
  42. hospital pharmacy ... to recover the clients data took nearly a dozen
  43. thermal cycles before every sector could be read without error.
  44.  
  45. Bring the drive to the high end of it's operating temp for 20 mins, format
  46. and initialize every sector of the drive. Bring the drive to the low
  47. end of it's operating range, and re-write every EVEN sector. Turn the
  48. drive off and cool to 60 deg F. in system (office night conditions). Bring
  49. ambient temp quickly to 80, start system and randomly write every ODD
  50. track and verify both neighboring tracks. Then read scan (observing soft
  51. error rates) the drive at the high and low ends of the operating range.
  52. Thermal sink to 65 and do random EVEN track read scan's during several in
  53. system warm up cycles.
  54.  
  55. An interesting side effect of thermal gradient off-tracking is PLL
  56. dropout in the data separator which generates a long error burst
  57. outside the normal detect and correct range for ECC ... and
  58. miss-corrects occur.  When doing data recovery on such systems,
  59. you can't always trust the "correct" data from the drive.
  60.  
  61.  
  62. >    You need to separate multi-tasking from multi-user.  Single-user
  63. >machines (and this includes most desktop Unix boxes) don't have the activity
  64. >levels for the example you gave to have any relevance.  It's rare that more
  65. >than one or two files are being accessed in any given second or even minute.
  66.  
  67. I would have agreed with you up until last year ... X windows and MS windows
  68. have drasticly changed the volume of disk I/O on PC's. At the same time,
  69. disk I/O has become a major wait factor in the startup and initialization
  70. of most GUI applications ... often contributing 80% of the minute or two
  71. big applications take to startup. In addition, applications seldom deal with
  72. simple ascii files .... they are now full of font and layout info, if
  73. not bitmaps. The evolution was most noticable on my mac ... when I
  74. first got my 128k mac I didn't understand why all the app's were
  75. so big ... today I don't think there are may app's that will even
  76. load on it ... many require more than the 1mb of a Mac Plus.
  77.  
  78. Applications that delivered acceptable performance on a 60KB/sec filesystem
  79. 10 years ago, now need 500KB/Sec or more. MSDOS and UNIX V7 filesystems
  80. don't deliver this type of performance ... single block filesystems
  81. are a thing of the past.
  82.  
  83.  
  84.  
  85. >recognition of the costs and complexity involved should be there also.
  86. >Filesystems are complex beasts, and that complexity can lead to high
  87. >maintenance costs.  Things that increase the complexity of an already
  88. >complex item for performance gains that are only rarely needed for the
  89. >application are suspect.  Also, adding something to an already complex
  90. >object can be more costly than adding it to a simple object, because the
  91. >complexities interact.
  92.  
  93. My point EXACTLY ... SCSI Firmware & Drivers have become too complex,
  94. in many cases, more complex than the application & filesystem using it!
  95. Enter IDE, simple firmware and simple drivers. And with some minor
  96. issues resolved (like better host adapters), better performance.
  97.  
  98. >>If this single user is going to run all the requests thru the cache
  99. >>anyway ... why not help it up front ... and queue a significant amount
  100. >>of the I/O on open or first reference. There are a few files were this
  101. >>is not true ... such as append only log files ... but there are clues
  102. >>that can be taken.
  103. >
  104. >    Why should the single-user have to run everything through a cache?
  105. >I think direct-DMA works very nicely for a single-user environment, especially
  106. >if you don't own stock in RAM vendors (as the current maintainers of Unix,
  107. >OS/2, and WindowsNT seem to).  Reserve the buffers for things that are likely
  108. >to be requested again or soon - most sequential reads of files are not re-used.
  109.  
  110. Generally user applications don't ask for a whole file, properly aligned
  111. and of an even sector length ... the filesystem can. Disk caches don't need
  112. to use an excessively large amount of DRAM to make significant performance
  113. increases.
  114.  
  115. Actually, from my experience, most files opened and read sequentially,
  116. will be opened and read sequentially again ... and soon. C compilers
  117. open the sources once, then typically open 6-20 include files which
  118. will be used again, if not for another compile, by the same users
  119. next try of the same program. Ditto for the many default, startup
  120. and font files in a X/motif environment. Make files, shell scripts
  121. and other such tools are another good example. Many small programs
  122. are also frequently re-used, especially those used by make & shell
  123. scripts. In development environments, common libraries are also
  124. often read.
  125.  
  126. Caching all writes is also highly productive ... editor writes out
  127. C source, to be read by C compiler which writes object module read
  128. by linker which writes the executable to read by system loader when
  129. the user tests. The cycle repeats, deleting ALL files created by the
  130. cycle .... if you hold the I/O long enough ... it really isn't I/O
  131. after all.
  132.  
  133. Doing selective caching has very unpredictable negative side-effects,
  134. unless selected by the application/user ... and even then .....
  135.  
  136. >>capable of servicing 486/RISC desktop machines ... and certainly in
  137. >>conflict with the needs of fileservers and multiuser applications engines
  138. >>found in 100,000's point of sale systems managing inventory and register
  139. >>scanners in each sales island -- Sears, Kmart, every supermarket, autoparts
  140. >>stores and a growing number of restrants and fast food stores.
  141. >
  142. >    Those are interesting areas, but those are not desktop markets,
  143. >and those are not single-user markets.  Those are large, multi-user (from the
  144. >point of the server) transaction and database server systems.
  145.  
  146. Certainly NOT LARGE - But built from the same desktop PC machines we
  147. discuss ... few vendors build UNIX or NOVEL servers ... customers take
  148. these cheap single-user desktop boxes and put UNIX/NOVEL (and soon NT)
  149. on them to solve their needs. Most of the Point of sale machines
  150. are 2-4 meg 386's with 40-80mb of disk ... same or smaller than most
  151. MS Windows machines ... they just have an additional 8-16 serial ports!
  152.  
  153. The day of the single-user, single-process desktop machine are
  154. nearly over. Multifinder on the Mac, Windows for DOS, Peer-Peer
  155. workgroup networks with file/resource sharing have just about
  156. obsoleted that old OS/Hardware model. This new model is even
  157. more demanding on HW than most character based UNIX systems
  158. require. Except for the simplest home computer applications
  159. (Johnny's word processor and games), desktop systems of the `90's
  160. are not just cute little boxes ... they need some serious punch.
  161.  
  162.