home *** CD-ROM | disk | FTP | other *** search
/ ARM Club 3 / TheARMClub_PDCD3.iso / hensa / documentation / documents / a252amul < prev    next >
Text File  |  1999-04-27  |  5KB  |  98 lines

  1. Asynchronous ARM, by Steve Furber
  2.  
  3.    The async ARM is probably the only ARM related activity which isn't covered
  4.    by an NDA! This is pure university research, with no plans for commercial
  5.    exploitation at present. ARM Ltd is very supported and interested, but
  6.    as you would expect they are waiting to see what the technology does before
  7.    building any business plans around it.
  8.  
  9.    There was a good article in January 93 Byte on our work, and I will be
  10.    presenting a paper at VLSI '93 on the architecture of the design. We haven't
  11.    got much else onto paper yet, but material is beginning to come together.
  12.    We will generate some full reports when we have seen silicon (in a couple
  13.    of months). Below I append a summary submission I made to 'Hot Chips' in
  14.    Stanford, which was accepted for a presentation this summer:
  15.  
  16.         AMULET1 - An Asynchronous ARM Processor
  17.         =======================================
  18.  
  19. A fully asynchronous implementation of the ARM microprocessor has
  20. been developed using Sutherland's "Micropipeline" approach. The
  21. design incorporates a number of concurrent units which cooperate
  22. to give instruction level compatibility with the existing synchronous
  23. part. These include an Address unit, which autonomously generates
  24. instruction fetch requests and interleaves (non-deterministically)
  25. data requests from the Execution unit; a Register file which sources
  26. operands, queues write destinations and handles data dependencies;
  27. an Execution unit which includes a multiplier, a shifter and an
  28. ALU with data-dependent delay; a Data interface which performs byte
  29. extraction and alignment and includes an instruction prefetch buffer,
  30. and a control path which performs instruction decode. These units
  31. all operate independently, only synchronizing at mutual interfaces
  32. to exchange data.
  33.  
  34. The design demonstrates that all the usual problems of processor
  35. design can be solved in this asynchronous framework: backwards
  36. instruction set compatibility, interrupts and exact exceptions for
  37. memory faults are all covered. It also demonstrates some unusual
  38. behaviour, for instance non-deterministic prefetch depth beyond
  39. a branch instruction (though the instructions which actually get
  40. executed are, of course, deterministic). There are some unusual
  41. problems for compiler optimization, as the metric which must be
  42. used to compare alternative code sequences is continuous rather
  43. than discrete, and the non-determinism in external behaviour must
  44. also be taken into account.
  45.  
  46. The chip (which is presently in fabrication) was designed using a
  47. mixture of custom datapath and compiled control logic elements, as
  48. was the synchronous ARM. The fabrication technology is the same as
  49. that used for one version of the synchronous part, reducing the
  50. number of variables when comparing the two parts.
  51.  
  52. The macrocell size (without pad ring) is 5.5mm by 4.5mm on a 1 micron
  53. CMOS process, which is about twice the area of the synchronous part.
  54. Some of the increase can be attributed to the more sophisticated
  55. organization of the new part: it has a deeper pipeline than the
  56. clocked version, and it supports multiple outstanding memory requests.
  57. There is undoubtedly some overhead attributable to the asynchronous
  58. control logic, but we estimate this to be closer to 20% than to the
  59. 100% suggested by the direct comparison.
  60.  
  61. The performance of the chip has been simulated at around 20K dhrystones,
  62. which is comparable to the synchronous part. This is based on compiler
  63. output which takes no note of data dependencies between instructions
  64. (the performance of the synchronous part is unaffected by instruction
  65. order), so we expect to be able to improve on this considerably by
  66. code re-ordering. The first design is very conservative in its timing,
  67. as there is no equivalent to backing-off on the clock frequency if the
  68. samples don't meet the design speed, so again we see considerable room
  69. for improvement through reducing the engineering margins.
  70.  
  71. Tests on the first silicon should enable us to refine the above results
  72. before the Symposium takes place. The work has taken place as part of
  73. a broad ESPRIT funded investigation into low-power technologies within
  74. the European Open Microprocessor systems Initiative (OMI) programme,
  75. where there is interest in low-power techniques both for portable
  76. equipment and (in the longer term) to alleviate the problems of the
  77. increasingly high dissipation of high-performance chips. This initial
  78. investigation into the role asynchronous logic might play in the quest
  79. for lower power has now demonstrated through simulation (and shortly
  80. through silicon) that asynchronous techniques can be applied to problems
  81. of the scale of a complete microprocessor.
  82.  
  83.  
  84. I hope this gives you some of what you want.
  85.  
  86. ---Steve
  87.  
  88. --------------------------------------------------------------------
  89. S B Furber              tel: (+44) 61 275 6129
  90. ICL Professor of Computer Engineering   fax: (+44) 60 275 6202
  91. The University              email: sfurber@cs.man.ac.uk
  92. Oxford Road
  93. Manchester M13 9PL
  94. UK
  95. --------------------------------------------------------------------
  96.  
  97.  
  98.