home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #1 / NN_1993_1.iso / spool / comp / sys / dec / 6788 < prev    next >
Encoding:
Internet Message Format  |  1993-01-10  |  2.0 KB

  1. Xref: sparky comp.sys.dec:6788 comp.dsp:2963
  2. Newsgroups: comp.sys.dec,comp.dsp
  3. Path: sparky!uunet!haven.umd.edu!decuac!pa.dec.com!engage.pko.dec.com!nntpd.lkg.dec.com!news!news.crl.dec.com!payne
  4. From: payne@crl.dec.com (Andrew Payne)
  5. Subject: Re: Alpha fft performance
  6. Message-ID: <1993Jan10.160508.18798@crl.dec.com>
  7. Sender: news@crl.dec.com (USENET News System)
  8. Organization: DEC Cambridge Research Lab
  9. References: <1992Dec31.164221.27734@aplcen.apl.jhu.edu> <1993Jan4.154245.13258@crl.dec.com> <1993Jan7.121038.4845@odin.corp.sgi.com>
  10. Date: Sun, 10 Jan 1993 16:05:08 GMT
  11. Lines: 29
  12.  
  13. In article <1993Jan7.121038.4845@odin.corp.sgi.com> jpp@sgi.com writes:
  14. >  An array of 1024 complex numbers indeed uses 8 Kbytes. However to compute an 
  15. >  FFT you need an extra array of Sines and Cosines of same size (8 kBytes).
  16. >  The total space required for this FFT is then at least 8+8 = 16 kBytes.
  17. >  So the assumption "just fits in the on-chip 8K D cache" seems abusive. ???
  18.  
  19. Not at all.  As has been already pointed out, you can take advantage of 
  20. symmetry to cut the table size down to 2K bytes (512 coefficients).  Also,
  21. you don't use all the coefficients at each stage (except the last), so the 
  22. _effective_ table size is even smaller.
  23.  
  24. >  I am not familiar with "Alpha's process cycle counter". Is this a simulator ?
  25. >  Does this tool take in account eventual cache misses ?
  26. >  How do real benchmark compare with your simulation ?
  27.  
  28. No, it isn't a simulator.  The cycle counter is just a high-resolution timer 
  29. that counts CPU cycles, and is available on all Alpha implementations.
  30. Our FFT times were measured on a real system with the cycle counter.  The 
  31. times given are "wall clock times" which take into account all aspects of the 
  32. execution, including time spent in the memory system.
  33.  
  34. >  Are the results of your transform ordered, or are they "bit reversed" ?
  35.  
  36. The times given are for ordered results.  In our code, the digit reverse 
  37. stage takes about 10,000 cycles (about 10% of the time).
  38.  
  39. -- 
  40. Andrew C. Payne
  41. DEC Cambridge Research Lab
  42.