home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #27 / NN_1992_27.iso / spool / comp / bbs / waffle / 4409 < prev    next >
Encoding:
Internet Message Format  |  1992-11-22  |  2.5 KB

  1. Path: sparky!uunet!micro-c!eastwind!chorn
  2. From: chorn@eastwind.mcds.com (Christopher Horn)
  3. Newsgroups: comp.bbs.waffle
  4. Subject: Re: dupweed
  5. Summary: What I did in it's place
  6. Message-ID: <10aLuB1w165w@eastwind.mcds.com>
  7. Date: Sat, 21 Nov 92 07:59:35 EST
  8. References: <D61JuB1w165w@tcscs.UUCP>
  9. Organization: The East Wind  +1 201 875 7063
  10. Lines: 43
  11.  
  12. tcscs!zeta@src.honeywell.com (Gregory Youngblood) writes:
  13.  
  14. > jim@jimmc.chi.il.us (Jim McNicholas) writes:
  15.  
  16. [some deleted]
  17.  
  18. > > Problem though, isn't it supposed to find duplicate articles from the root 
  19. > > of news, no matter if they are posted elsewhere of not! right now I can
  20. > > delete dupes from news\rec\foo and news\rec\bar but if something is
  21. > > cross-posted to comp.foo or comp.bar I'm fubar for sure!!  Kevin any help
  22. > > available and no I'm not a programmer!! Just a waffle head, I guess I could
  23. > > try writing bat files for every conceivable combination but that wouldn't w
  24. > > either!!  I can't get dupweed to see extended or expanded memory either, on
  25. > > the 320,000 or so I have left after waffle is running!!
  26.  
  27. > I dont know waht happened when I used it, but it dleted an entire news direct
  28. > not just duplicate articles.  When I have more time I'll look at it again,
  29. > but until then....
  30.  
  31. I tried it too, and had some problems. Most of it I suspect was due to
  32. stack overflow from the recurse routine. I started hacking it, but in
  33. the end decided to write my own code to do it from scratch.
  34.  
  35. Another problem I noticed is that it's fine if you kill the dupes,
  36. * BUT * if you resequence BEFORE you batch, the filenumbers in the batch
  37. queues will fail to match. Which is why Willard Dawson took the approach
  38. he did with WafHist.
  39.  
  40. My solution is to kill the dupes, batch, and then go back and resequence.
  41. Currently the dupe kill routine in my code assumes you get all your news
  42. from a single upstream site. A painful restriction, but the result is some
  43. VERY VERY fast code. And my directory recurse function uses very little
  44. stack space, with no limit on subdirectories, etc..  It can handle 3000
  45. files per directory, probably closer to 5000 if one wanted it too. I'm
  46. currently trying to decide how to effectively clean dupes when getting
  47. multiple feeds, as this does require every article file be opened since
  48. identicle articles may have come via different paths. If anyone is
  49. interested, let me know and I'll either post it or an announcement of
  50. where/how to get it when I'm done.
  51.  
  52.  ---
  53.  Christopher Horn           |  "We're all caught in a state of decay..."
  54.  chorn@eastwind.mcds.com    |  The East Wind  +1 201 875 7063
  55.