home *** CD-ROM | disk | FTP | other *** search
/ The Hacker's Encyclopedia 1998 / hackers_encyclopedia.iso / hacking / internet / newsread.j95 < prev    next >
Encoding:
Text File  |  2003-06-11  |  19.4 KB  |  370 lines

  1.  
  2. USENET READERSHIP SUMMARY REPORT for Jan 95
  3. ***Note: there have been several months without a readership report.
  4.    The reason for the hiatus is that a lot of sites have been submitting
  5.    forged data to make their favorite newsgroups look widely read. Last
  6.    month's report would have showed "alt.activism" to be the most popular
  7.    newsgroup on the network. Nearly all of the forgeries are coming
  8.    from Europe.
  9.  
  10.    I have analyzed all data submitted over the last few years and from
  11.    this analysis I have programmed a statistical "forged data rejector".
  12.    This report for January 1995 is the first to exclude all forged data;
  13.    as I look back through the historical reports, some sites started
  14.    small-scale doctoring of the data in early 1994, but the practice
  15.    did not become rampant until summer 1994. 
  16.  
  17.    Forgery detection is of course a cat-and-mouse game, and if these 
  18.    people are serious about disrupting the numbers, they will find a way
  19.    to circumvent my forgery detector, and sooner or later the reports
  20.    will degrade again. 
  21.  
  22. --------------------------------------------------------------------------
  23. This is the first article in a monthly posting series from the Network
  24. Measurement Project at the DEC Network Systems Laboratory in Palo Alto,
  25. California. 
  26.  
  27. This survey is based on a sample of data taken from various USENET sites.
  28. At the end of this message there is a short explanation of the measurement
  29. techniques and the meaning of the various statistics. The messages that
  30. follow this one show survey data sorted by various criteria.
  31.  
  32. The newsgroup volume and article counts that I post are often significantly
  33. different from the ones posted by Rick Adams, because he includes the size of
  34. a crossposted article in every group to which it is posted, whereas I charge
  35. that size only to the first-named group. 
  36.  
  37. The complete set of readership data (of which this is a summary) is posted
  38. in news.lists. The software that will let your site participate in the
  39. survey is in comp.sources.d and news.admin
  40.  
  41.                         Brian Reid
  42.                         reid@pa.dec.com
  43.  
  44.  
  45. OVERALL SUMMARY:
  46.                              This            Estimated
  47.                             Sample         for entire net
  48. Sites:                      453               260000
  49. Fraction reporting:        0.17%                 100%
  50. Users with accounts:     190664             47579000
  51. Netreaders:               66123             16500000
  52.  
  53. Average readers per site:                         146
  54. Percent of users who are netreaders:            34.68%
  55. Average traffic per day (megabytes):          242.204
  56. Average traffic per day (messages):             84719
  57. Traffic measurement interval:    last              28 days
  58. Readership measurement interval: last              75 days
  59. Sites used to measure propagation:                453
  60.  
  61.  
  62. Valid data received from these sites:
  63.  
  64. 6sigma(5) actew.oz.au(811) adolfoien.vgs.no(2) aedi.insa-lyon.fr(510)
  65. airs.com(8) alanya.isar.muc.de(10) alchemy(371) alex(0) alfred(4)
  66. alsys.com(125) alsys.de(15) anakena.dcc.uchile.cl(7)
  67. angelo.healthchex.com(24) angus.mystery.com(35) animal.inescn.pt(247)
  68. anorad.com(119) apricot.co.uk(80) arakis.fdn.org(8) atfs0(174)
  69. awful(13) aztec(140) badlands.nodak.edu(8838)
  70. barnard.manawatu.planet.co.nz(5) bat710.univ-lyon1.fr(508)
  71. bcstec.ca.boeing.com(863) beauty(19) belvedere(7) bgsuvax(1110)
  72. bigwheel(200) blackice(1) blkhole(14) bohemia(85)
  73. bohr.phys.ksu.edu(286) boy(6) bsuvc.bsu.edu(11358)
  74. btoy1.rochester.ny.us(16) cabezon(201) caipfs.rutgers.edu(21)
  75. cam-orl.co.uk(113) caribou.msfc.nasa.gov(11) carver.wa.com(69) ccs3(1)
  76. cello(539) centre.univ-orleans.fr(191) cerritos.edu(987) cfctech(36)
  77. cgate.sait.ab.ca(580) chekov(6) chemeng.ed.ac.uk(80) cheops(231)
  78. cherry(33) chiark(7) chinaca(21) chinacat(20) chuck.sycraft.com(3)
  79. ci.org(173) cigna(708) cis(64) cleo(3)
  80. clpd-newsserver.clpd.kodak.com(744) clpgh.org(418) cnplss5(99)
  81. codewks(196) cognos(291) colossus(1233) coral(39)
  82. cpvax.cpses.tu.com(63) cradac(0) cronus(46)
  83. csdvax.csd.unsw.edu.au(2188) cspyr0(79) csustan.csustan.edu(27)
  84. cub.kscorp.com(13) cutler.com(10) cuugnet(832) cvedg(3) cwis(347)
  85. dante(21) dante.migsol.com(21) datani.dk(17) dciem(196) desc.dla.mil(7)
  86. devon(5) digi(1280) dimacs.rutgers.edu(587) discg2.disc.dla.mil(10)
  87. discg3.disc.dla.mil(1008) discg4.disc.dla.mil(77) disunms(1093)
  88. disuns2(972) dogface(1) dorm.rutgers.edu(249) dove(146) dplace(0)
  89. drager.com(275) dragon.com(42) drd(39) drum.msfc.nasa.gov(26)
  90. dsacg2.dsac.dla.mil(5) dsbc.icl.co.uk(135) dsinet(16) duke(550)
  91. dumbcat.sf.ca.us(11) dutiws.twi.tudelft.nl(424) earlgrey.exnet.com(1)
  92. ees1a0.engr.ccny.cuny.edu(9) egreen(733) eis.calstate.edu(6492)
  93. elements.rpal.rockwell.com(83) elmo(21) elsie(5) ember(3) eonwe(87)
  94. eos(174) eram.esi.com.au(72) ernest(26) ernie(15) esatst(19)
  95. esslemont.manawatu.planet.co.nz(3) europa(184) europa.com(28)
  96. fasterix.frmug.fr.net(8) fdmetd(7) fermat(274) filomen(0) flab(179)
  97. flatlin(13) franz.com(66) freedm(10) freenet-news(34438)
  98. gauss.rutgers.edu(216) gcc.edu(884) geac(234) geovax.ed.ac.uk(226)
  99. getank(52) giga(265) gistdev(57) gmdtub(251) golem(2) goofy(319)
  100. gordius(58) gouldnl(52) gozer(9) grafex(26) grian(20) gtisqr(17)
  101. gypsum.berkeley.edu(98) halcyon(7248) hammer.msfc.nasa.gov(24)
  102. hamnet(25) harrnl(23) hawkmoon(0) hccompare.com(726) hhcs.gov.au(5)
  103. hhvo.sjoe.mil.no(11) hilbert.rutgers.edu(135) hiram.edu(878) hodgson(2)
  104. hornet(1) hp400p(34) humming(98) iamk4515(44) iat.holonet.net(6350)
  105. iclnet93.iclnet.org(28) ics.uci.edu(422) iecc(10) iesd.auc.dk(405)
  106. ifens01.insa-lyon.fr(20) ifhamy.insa-lyon.fr(233)
  107. ifhpserv.insa-lyon.fr(69) ifi.uio.no(3353) iitmax(1386) imagelan.com(5)
  108. imladris(30) imperium(12) impreza(134) inescca.inescc.pt(37)
  109. infodyn(20) infopro.infopro.com(10) infotax(1) intrepid(18)
  110. investor(10) iris.claremont.edu(7) iris.mbvlab.wpafb.af.mil(143)
  111. islabs(16) isys-hh(147) ixi(4) jabba.ess.harris.com(128) james(79)
  112. jaws(225) jerrwood(1) jfwhome.funhouse.com(17) johnny5(2) jove(43)
  113. jtmiii.uucp(2) julian.uwo.ca(4150) jupiter(68) kaepk.ericsson.se(69)
  114. kaepk1.ericsson.se(81) kaepk3.ericsson.se(46) kaepk4.ericsson.se(91)
  115. kala(11) kalle.impab.se(2) kb2ear.overleaf.com(56)
  116. keltia.frmug.fr.net(50) khijol(43) kksys(104) kofax(69) krason(11)
  117. lakes(250) latour(8) ledger.co.forsyth.nc.us(142) lkbreth(50)
  118. loretta(32) lpi(59) m2xenix.psg.com(173) macdona(103) macdonal(242)
  119. magic.capsogeti.fr(130) mahavir(1) manger.modeld.no(1) mantis.co.uk(21)
  120. marriott.clark.net(260) mars(257) martex(10) math.berkeley.edu(5)
  121. math.rutgers.edu(465) mathstat(44) matrox(489) matrx(21) maya(50)
  122. mcmi(40) mcsiad(3) mdtvus.com(26) metasoft(34) mica.berkeley.edu(72)
  123. miclon(64) midas(39) missing(799) mnemosyne.cs.du.edu(210) modus(38)
  124. mole.hawkesbay.planet.co.nz(8) monygmc(21) monymsys(6) moonbase(32)
  125. mr-pibb(779) mtdiablo(19) mtroyal.ab.ca(733) mts(13) muselab(734)
  126. nad.com(285) nanovx(8) nasim(86) nate(2) ncoast(676) ncrlisl(134)
  127. neodata(1028) netagw(5) netline-fddi(9) news-server.aa.cad.com(287)
  128. news-server.aa.cad.slb.com(275) news.cis.ohio-state.edu(3638)
  129. news.ilx.com(181) news.loria.fr(527) newton.isa.de(58) nezsdc(4)
  130. nicmad(355) nj8j(9) nmc(1) nmrdc1(8) nocusuhs(17)
  131. nosun.west.sun.com(35) noweh.com(3) nri-e(67) nrlvx1.nrl.navy.mil(325)
  132. nrlvx2.nrl.navy.mil(321) nttta(56) numachi(16)
  133. nyx10.nyx10.cs.du.edu(18123) obdient(29) ocean(90) oslonett.no(4077)
  134. oucsace.cs.ohiou.edu(779) ovation(252) overload(2540)
  135. pasadena-dc.bofa.com(24) pbhya(105) pbhyb(239) pbhyc(279) pbhyd(132)
  136. pbhye(186) pbhyg(256) pentagon-ai(94) phage(521) pi19(103) piaggio(50)
  137. picasso(133) platon.transport.tih.no(3) plxsun(221) pmafire(180)
  138. practic.practic.com(8) presby.edu(254) primerd(102) prism1(31) pta(177)
  139. ptsfa(100) pute.cmhnet.org(11) pylon(9) pyramid(43) pyratl(41)
  140. qiclab.scn.rain.com(28) quando(214) qucdnee.ee.queensu.ca(37)
  141. qucdntri.ee.queensu.ca(25) quest(313) questrel(21) railnet(12)
  142. raindrop(6) raybed2(1172) rayleigh(103) rci(1068) rebel(4) redpoll(3)
  143. redshirt.cc.rochester.edu(24) residents(8) resonex(36) rhi.hi.is(4334)
  144. robohack(95) robtoy.manawatu.planet.co.nz(4) rochester(230) rosebud(2)
  145. rosedale(0) roselin(1051) rsd0(26) rtxirl.rtxirl.ie(38) ruacad(636)
  146. rubb.rz.ruhr-uni-bochum.de(20) rucs(18) rucs2(166) rufus(536)
  147. rulcde.leidenuniv.nl(14) rulcvx(0) rutcor.rutgers.edu(170)
  148. rutgers.rutgers.edu(60) sactoh0.sac.ca.us(107) sadtler(31) saturn(52)
  149. sauron.msfc.nasa.gov(20) sausage.manawatu.planet.co.nz(3)
  150. sausage.taranaki.planet.co.nz(6) scarboro(280)
  151. scfe.chinalake.navy.mil(577) scicom(53) scow(466) scrash(8) sdl(85)
  152. seanews(389) seer(41) sgfb(127) shiva.com(254) si.sintef.no(246)
  153. sis.stockell.com(20) skyking(16) slcl.lib.mo.us(69)
  154. sol.ctr.columbia.edu(278) sooner.palo-alto.ca.us(2) sparky(5)
  155. spatial.com(93) spock.retix.com(78) spunky.redbrick.com(129)
  156. srchtec(23) stat(39) stephsf.com(20) stephsf.stephsf.com(20)
  157. student(511) summit(34) sun19(37) sunburn.stanford.edu(227) suned1(731)
  158. sycraft.com(6) symbiosis.ahp.com(347) synercom(23) tachyon.com(11)
  159. tardis(145) tarzan(219) taylor.manawatu.planet.co.nz(3) tct(13)
  160. tellab5(1749) tembel(11) teslab(28) theseas(866) tijger.fys.ruu.nl(552)
  161. til(18) tintin.csl.sni.be(0) titan(414) tol-ed.com(43) torrie(13)
  162. totaltec.com(133) tower(1) tower.nullnet.fi(31) tram(4)
  163. troi.cc.rochester.edu(715) ttsi(63) tukki(2099) turtle.fisher.com(253)
  164. tut.msstate.edu(5415) twg(19) ubaclu.unibas.ch(1279)
  165. ucbeh.san.uc.edu(3666) uhura.cc.rochester.edu(4258) ukma(722)
  166. umd5.umd.edu(3713) uniwa(2099) unvax.union.edu(2195) ursa(923)
  167. urz.unibas.ch(1237) utdoe(21) utgpu(726) uunet(290)
  168. valinor.mythical.com(244) valnet(117) vanlib.fvrl.org(28)
  169. vela.acs.oakland.edu(8148) venus(162) vicuna(24) visicom(102)
  170. visual(34) vms.ocom.okstate.edu(197) voodoo.ca.boeing.com(94)
  171. warwick(14802) water.berkeley.edu(130) wb8apd(11) wcc(7)
  172. weaver.berkeley.edu(170) webworm.berkeley.edu(838) weitek.com(122)
  173. wesel(37) wetware(7) wheaton.wheaton.edu(17) whscdp.whs.edu(462)
  174. widow.berkeley.edu(260) wizvax(177) wofford.edu(687)
  175. wolf.berkeley.edu(173) wshb(43) wsrcc.com(5) wvml.jeslacs.bc.ca(25)
  176. wvus(0) xenitec(42) xopuk(0) xtree(6) yage(12) zorch(11)
  177.  
  178. ------------------------------------------------------------------------------
  179.                 EXPLANATION OF THE MEASUREMENTS AND STATISTICS
  180.  
  181. Survey data is taken by having one person at each site run a program called
  182. "arbitron", which looks at the news or notes files and determines the
  183. newsgroups that the user has read within a recent interval. To "read" a
  184. newsgroup means to have been presented with the opportunity to look at at
  185. least one message in it. Going through a newsgroup with the "n" key counts
  186. as reading it. For a news site, "user X reads group Y" means that user X's
  187. .newsrc file has marked at least one unexpired message in Y. If there is no
  188. traffic in a newsgroup for the measurement period, then the survey will show
  189. that nobody reads the group. For a notes site, "user X reads group Y" means
  190. that user X has been in the notesfile with the sequencer in the last 14 days.
  191. The "14 days" interval for notesfiles corresponds to "unexpired" for news.
  192.  
  193. The "arbitron" program is periodically posted to comp.sources.d, or is
  194. available from me (decwrl!reid). The notesfiles version of the program should
  195. be available through standard notesfiles software distribution channels as
  196. well.
  197.  
  198. SITES SURVEYED IN THIS SAMPLE
  199.  
  200. "This Sample" means the set of sites that have sent in an arbitron report
  201. within the past "Readership measurement interval" days. In every case the
  202. most recent report from each site is used. At the moment, some of the
  203. readership reports are several months old. In future postings those reports
  204. will have expired and will not be included.
  205.  
  206. The number in parentheses after the site name is the number of users that the
  207. site reported. A value of (0) usually means that the software has been
  208. configured to use the wrong technique for counting users at that site; a
  209. report showing 0 users but 6 readers of rec.humor.funny is statistically
  210. meaningful.
  211.  
  212. One might argue that the sample is self-selected, and thereby be biased. It
  213. does in fact have a certain self-selection factor in it, because we only get
  214. data from sites at which someone participates in the survey. However, we do
  215. not require the participation of every user at a site, only one user. The
  216. survey program returns data for every user on the system on which it was run.
  217. Since there are an average of 30 people per site reading news, there is a
  218. certain amount of randomness introduced that way. Of course, the sample is
  219. biased in favor of large sites (they are more likely to have a user willing
  220. to run the survey program) and software-development-oriented sites (more
  221. likely to have a user *able* to run the survey program).
  222.  
  223. NETWORK SIZE
  224.  
  225. I determine the network size by looking at the set of sites that are
  226. mentioned in the Path lines of news articles arriving at decwrl. This number
  227. is consistently higher than the number of sites that posted a message (as
  228. measured and posted from uunet) because it includes passive sites that are
  229. on the paths between posting sites and decwrl. Each month I store the names
  230. of the hosts that are named that month, and for this report I used the past
  231. 13 months worth of data.
  232.  
  233. There are 257417 different sites in the Path lines of articles that
  234. arrived at decwrl in the last 13 months. There are 19296
  235. different sites in the comp.mail.maps data, but comp.mail.maps tends to
  236. include only one or two machines for each organization, leaving the rest
  237. unmentioned. Also a large number of sites participate in USENET without
  238. participating in UUCP.  
  239.  
  240. I believe that 260000 is the best estimate for the size of USENET.
  241. Because it is actually a measurement of the number of sites that have posted
  242. a message or that are on the path to a site that has posted a message, it
  243. will be slightly smaller than the number of sites that actually read netnews.
  244. Any site that believes it is not being counted can just ensure that it posts
  245. at least one message a year, so that it will be counted.
  246.  
  247.  
  248. NUMBER OF USERS
  249.  
  250. The number of users at each site is determined in a site-specific fashion.
  251. Sometimes it is done by counting the number of user accounts that have
  252. shells and login directories. Sometimes it is done by counting the number of
  253. people who have logged in to the machine in some interval. Sometimes other
  254. techniques are used. This number is probably not very accurate--certainly
  255. not more accurate than to within a factor of two.
  256.  
  257.  
  258. ESTIMATED TOTAL NUMBER OF PEOPLE WHO READ THIS GROUP, WORLDWIDE
  259.  
  260. There are two sources of error in this number. The number is computed by
  261. multiplying the number of people in the sample who actually read the group by
  262. the ratio of estimated network size to sample size. The estimated total can
  263. therefore be biased by errors in the network size estimate (see above) and
  264. also by errors in the determination of whether or not someone reads a group.
  265. Assuming that "reading a group" is roughly the same as "thumbing through a
  266. magazine", in that you don't necessarily have to read anything, but you have
  267. to browse through it and see what is there, then the measurement error will
  268. come primarily from inability to locate .newsrc files, which can either be
  269. protected or moved out of root directories. There is no way of measuring the
  270. effect on the measurements from unlocated .newsrc files, but it is not likely
  271. to be more than a few percent of the total news readers.
  272.  
  273. PROPAGATION: HOW MANY SITES RECEIVE THIS GROUP AT ALL
  274.  
  275. This number is the percent of the sites that are even receiving this
  276. newsgroup. The information necessary to compute propagation was not generated
  277. by early versions of the arbitron program, so the "basis" (number of sites)
  278. used to generate the Propagation figure is smaller than the "Sites in this
  279. sample" figure. A site's data will be used to compute propagation if either
  280. (a) it reports zero readers for at least one group, or (b) it is using an
  281. arbitron with an explicit version number that is high enough. 
  282.  
  283.  
  284. MESSAGES PER MONTH AND KILOBYTES PER MONTH
  285.  
  286. Traffic is measured at decwrl, in Palo Alto, California. If for some reason
  287. decwrl has not received any traffic in that newsgroup during the measurement
  288. period, this is indicated with dashes ("-") in the traffic columns.
  289.  
  290. Any message that has arrived at decwrl within the last "Traffic measurement
  291. interval" days is counted, regardless of when it was posted. Monthly rates
  292. are computed by taking the total traffic, dividing by the number of days in
  293. the traffic measurement interval, and multiplying by 30.
  294.  
  295. By definition the message traffic values are correct, because they are an
  296. exact measurement, but they may differ from the traffic at your site because
  297. of differences in timing and propagation. Timing differences will be random,
  298. but will average out in the long run.
  299.  
  300. If a message is crossposted to several groups, it is charged only to the
  301. first-named group in the list. Note that this differs from the statistics
  302. posted from uunet every 2 weeks: the uunet data charge a message equally to
  303. every group that it is crossposted to.
  304.  
  305.  
  306. CROSSPOSTING PERCENTAGE: WHAT FRACTION OF THE ARTICLES ARE CROSSPOSTED
  307.  
  308. "Crossposting" means to post the same article simultaneously in more than one
  309. newsgroup. In genuine "news" systems crossposting is implemented with Unix
  310. links and does not increase the storage or transmisison cost, though in some
  311. other systems crossposted articles are unbundled and must be stored and
  312. transmitted separately.
  313.  
  314. The "crossposting percentage" is the percentage of the articles in this group
  315. that are crossposted to at least one other group. If every article in this
  316. group is crossposted, the percentage will be 100%; if none is crossposted,
  317. then the percentage will be 0%. The crossposting percentage figure does not
  318. take the size of the article into account, only the number of articles.
  319. Crossposting a 50,000-byte article or a 50-byte article both cause the same
  320. tally.
  321.  
  322.  
  323. COST RATIO: DOLLARS PER MONTH PER READER
  324.  
  325. The most controversial field in the survey report is the "$US per month per
  326. reader". It is the estimated number of dollars that are being spent on behalf
  327. of each reader, worldwide, on telephone and computer costs to transmit this
  328. newsgroup. The rate of $.0025 per kilobyte is the same value used in the
  329. UUNET statistics reported biweekly. It is based on discussions among system
  330. administrators about the true cost of news transmission.
  331.  
  332. The cost ratio is computed as follows:
  333.  
  334. $US/month/reader = ($USPerMonthPerSite * numberOfSites) / numberOfReaders
  335. $USPerMonthPersite = KBytesTrafficPerMonth * $USPerKByte * Propagation factor
  336. $USPerKByte = 0.0025
  337.  
  338. Combining all these gives
  339.  
  340. $USPerMonthPersite =
  341.     KBytesTrafficPerMonth * 0.0025
  342.   = KBytesTrafficPerMonth / 400
  343.  
  344. Therefore:
  345.  
  346. $US/month/reader =
  347.     (KBytesTrafficPerMonth * numberOfSites) / (400 * numberOfReaders)
  348.  
  349. The accuracy of this number is in fact better than the accuracy of the
  350. participation ratio, because the source of error--the network size
  351. estimate--is present both in the numerator and the denominator, and therefore
  352. cancels out. The primary source of bias in this number comes from the bias in
  353.  
  354.  
  355. the "estimated number of readers, worldwide", which is described above. Treat
  356. this value as being accurate to within about 25%.
  357.  
  358.  
  359. SITE PARTICIPATION
  360.  
  361. I would like to receive data from every site on USENET. The arbitron programs
  362. (posted comp.sources.d along with this report) work on news 2.9, 2.10.[1-3],
  363. 2.11, and on many versions of notesfiles.
  364.  
  365.  
  366. Brian Reid
  367. Network Systems Laboratory, Digital Equipment Corporation, Palo Alto CA
  368. reid@pa.dec.com
  369.  
  370.