home *** CD-ROM | disk | FTP | other *** search
/ PC Professionell 2004 December / PCpro_2004_12.ISO / files / webserver / tsw / TSW_3.4.0.exe / Apache2 / cgi-bin / robots.pm < prev    next >
Encoding:
Text File  |  2004-05-20  |  16.2 KB  |  744 lines

  1. # AWSTATS ROBOTS DATABASE
  2. #-------------------------------------------------------
  3. # If you want to add robots to extend AWStats database detection capabilities,
  4. # you must add an entry in RobotsSearchIDOrder_listx and RobotsHashIDLib.
  5. #-------------------------------------------------------
  6. # $Revision: 1.4 $ - $Author: joker $ - $Date: 2004/05/20 20:38:42 $
  7.  
  8.  
  9. #package AWSROB;
  10.  
  11.  
  12. # Robots list was found at http://www.robotstxt.org/wc/active/all.txt
  13. # Other robots can be found at http://www.jafsoft.com/searchengines/webbots.html 
  14. # Rem: To avoid bad detection, some robots id were removed from this list:
  15. #      - Robots with ID of 3 letters only
  16. #      - Robot called 'webs' and 'tcl'
  17. # Rem: Some robot most used for download are also remode: wget
  18. # Rem: directhit changed into direct_hit (its real id)
  19. # Rem: calif changed into calif[^r] to avoid confusion between Tiscalifreenet browser
  20. # Rem: fish changed into [^a]fish to avoid confusion between Madsafish browser
  21. # Rem: roadrunner changed into road_runner
  22. # Rem: lycos changed to lycos_ to avoid confusion with lycos-online browser
  23. # Rem: voyager changed into ^voyager\/ to avoid to exclude voyager and amigavoyager browser
  24.  
  25. # RobotsSearchIDOrder
  26. # It contains all matching criteria to search for in log fields. This list is
  27. # used to know in which order to search Robot IDs.
  28. # Most frequent one are in list1, used when LevelForRobotsDetection is 1 or more
  29. # Minor robots are in list2, used when LevelForRobotsDetection is 2 or more
  30. # Note: Robots IDs are in lower case, ' ' and '+' are changed into '_' and are quoted.
  31. #-------------------------------------------------------
  32. @RobotsSearchIDOrder_list1 = (
  33. # Common robots (In robot file)
  34. 'appie',
  35. 'architext',
  36. 'jeeves',
  37. 'bjaaland',
  38. 'ferret',
  39. 'googlebot',
  40. 'gulliver',
  41. 'harvest',
  42. 'htdig',
  43. 'linkwalker',
  44. 'lycos_',
  45. 'moget',
  46. 'muscatferret',
  47. 'myweb',
  48. 'nomad',
  49. 'scooter',
  50. 'slurp',
  51. '^voyager\/',
  52. 'weblayers',
  53. # Common robots (Not in robot file)
  54. 'antibot',
  55. 'digout4u',
  56. 'echo',
  57. 'fast\-webcrawler',
  58. 'ia_archiver',
  59. 'jennybot',
  60. 'mercator',
  61. 'netcraft',
  62. 'petersnews',
  63. 'unlost_web_crawler',
  64. 'voila',
  65. 'webbase',
  66. 'wisenutbot'
  67. );
  68. @RobotsSearchIDOrder_list2 = (
  69. # Less common robots (In robot file)
  70. '[^a]fish',
  71. 'abcdatos',
  72. 'acme\.spider',
  73. 'ahoythehomepagefinder',
  74. 'alkaline',
  75. 'anthill',
  76. 'arachnophilia',
  77. 'arale',
  78. 'araneo',
  79. 'aretha',
  80. 'ariadne',
  81. 'arks',
  82. 'aspider',
  83. 'atn\.txt',
  84. 'atomz',
  85. 'auresys',
  86. 'backrub',
  87. 'bbot',
  88. 'bigbrother',
  89. 'blackwidow',
  90. 'blindekuh',
  91. 'bloodhound',
  92. 'borg\-bot',
  93. 'brightnet',
  94. 'bspider',
  95. 'cactvschemistryspider',
  96. 'calif[^r]',
  97. 'cassandra',
  98. 'cgireader',
  99. 'checkbot',
  100. 'christcrawler',
  101. 'churl',
  102. 'cienciaficcion',
  103. 'collective',
  104. 'combine',
  105. 'conceptbot',
  106. 'coolbot',
  107. 'core',
  108. 'cosmos',
  109. 'cruiser',
  110. 'cusco',
  111. 'cyberspyder',
  112. 'desertrealm',
  113. 'deweb',
  114. 'dienstspider',
  115. 'digger',
  116. 'diibot',
  117. 'direct_hit',
  118. 'dnabot',
  119. 'download_express',
  120. 'dragonbot',
  121. 'dwcp',
  122. 'e\-collector',
  123. 'ebiness',
  124. 'elfinbot',
  125. 'emacs',
  126. 'emcspider',
  127. 'esther',
  128. 'evliyacelebi',
  129. 'fastcrawler',
  130. 'fdse',
  131. 'felix',
  132. 'fetchrover',
  133. 'fido',
  134. 'finnish',
  135. 'fireball',
  136. 'fouineur',
  137. 'francoroute',
  138. 'freecrawl',
  139. 'funnelweb',
  140. 'gama',
  141. 'gazz',
  142. 'gcreep',
  143. 'getbot',
  144. 'geturl',
  145. 'golem',
  146. 'grapnel',
  147. 'griffon',
  148. 'gromit',
  149. 'gulperbot',
  150. 'hambot',
  151. 'havindex',
  152. 'hometown',
  153. 'htmlgobble',
  154. 'hyperdecontextualizer',
  155. 'iajabot',
  156. 'iconoclast',
  157. 'ilse',
  158. 'imagelock',
  159. 'incywincy',
  160. 'informant',
  161. 'infoseek',
  162. 'infoseeksidewinder',
  163. 'infospider',
  164. 'inspectorwww',
  165. 'intelliagent',
  166. 'irobot',
  167. 'iron33',
  168. 'israelisearch',
  169. 'javabee',
  170. 'jbot',
  171. 'jcrawler',
  172. 'jobo',
  173. 'jobot',
  174. 'joebot',
  175. 'jubii',
  176. 'jumpstation',
  177. 'kapsi',
  178. 'katipo',
  179. 'kilroy',
  180. 'ko_yappo_robot',
  181. 'labelgrabber\.txt',
  182. 'larbin',
  183. 'legs',
  184. 'linkidator',
  185. 'linkscan',
  186. 'lockon',
  187. 'logo_gif',
  188. 'macworm',
  189. 'magpie',
  190. 'marvin',
  191. 'mattie',
  192. 'mediafox',
  193. 'merzscope',
  194. 'meshexplorer',
  195. 'mindcrawler',
  196. 'mnogosearch',
  197. 'momspider',
  198. 'monster',
  199. 'motor',
  200. 'msnbot',
  201. 'muncher',
  202. 'mwdsearch',
  203. 'ndspider',
  204. 'nederland\.zoek',
  205. 'netcarta',
  206. 'netmechanic',
  207. 'netscoop',
  208. 'newscan\-online',
  209. 'nhse',
  210. 'northstar',
  211. 'nzexplorer',
  212. 'objectssearch',
  213. 'occam',
  214. 'octopus',
  215. 'openfind',
  216. 'orb_search',
  217. 'packrat',
  218. 'pageboy',
  219. 'parasite',
  220. 'patric',
  221. 'pegasus',
  222. 'perignator',
  223. 'perlcrawler',
  224. 'phantom',
  225. 'phpdig',
  226. 'piltdownman',
  227. 'pimptrain',
  228. 'pioneer',
  229. 'pitkow',
  230. 'pjspider',
  231. 'plumtreewebaccessor',
  232. 'poppi',
  233. 'portalb',
  234. 'psbot',
  235. 'python',
  236. 'raven',
  237. 'rbse',
  238. 'resumerobot',
  239. 'rhcs',
  240. 'road_runner',
  241. 'robbie',
  242. 'robi',
  243. 'robocrawl',
  244. 'robofox',
  245. 'robozilla',
  246. 'roverbot',
  247. 'rules',
  248. 'safetynetrobot',
  249. 'search\-info',
  250. 'search_au',
  251. 'searchprocess',
  252. 'senrigan',
  253. 'sgscout',
  254. 'shaggy',
  255. 'shaihulud',
  256. 'sift',
  257. 'simbot',
  258. 'site\-valet',
  259. 'sitetech',
  260. 'skymob',
  261. 'slcrawler',
  262. 'smartspider',
  263. 'snooper',
  264. 'solbot',
  265. 'speedy',
  266. 'spider_monkey',
  267. 'spiderbot',
  268. 'spiderline',
  269. 'spiderman',
  270. 'spiderview',
  271. 'spry',
  272. 'ssearcher',
  273. 'suke',
  274. 'suntek',
  275. 'sven',
  276. 'tach_bw',
  277. 'tarantula',
  278. 'tarspider',
  279. 'techbot',
  280. 'templeton',
  281. 'titan',
  282. 'titin',
  283. 'tkwww',
  284. 'tlspider',
  285. 'ucsd',
  286. 'udmsearch',
  287. 'urlck',
  288. 'valkyrie',
  289. 'verticrawl',
  290. 'victoria',
  291. 'visionsearch',
  292. 'voidbot',
  293. 'vwbot',
  294. 'w3index',
  295. 'w3m2',
  296. 'wallpaper',
  297. 'wanderer',
  298. 'wapspider',
  299. 'webbandit',
  300. 'webcatcher',
  301. 'webcopy',
  302. 'webfetcher',
  303. 'webfoot',
  304. 'webinator',
  305. 'weblinker',
  306. 'webmirror',
  307. 'webmoose',
  308. 'webquest',
  309. 'webreader',
  310. 'webreaper',
  311. 'websnarf',
  312. 'webspider',
  313. 'webvac',
  314. 'webwalk',
  315. 'webwalker',
  316. 'webwatch',
  317. 'whatuseek',
  318. 'whowhere',
  319. 'wired\-digital',
  320. 'wmir',
  321. 'wolp',
  322. 'wombat',
  323. 'worm',
  324. 'wwwc',
  325. 'wz101',
  326. 'xget',
  327. # Other robots reported by users
  328. 'aport',
  329. 'awbot',
  330. 'baiduspider',
  331. 'bobby',
  332. 'boris',
  333. 'bumblebee',
  334. 'cscrawler',
  335. 'daviesbot',
  336. 'exactseek',
  337. 'ezresult',
  338. 'gigabot',
  339. 'gnodspider',
  340. 'grub',
  341. 'henrythemiragorobot',
  342. 'holmes',
  343. 'internetseer',
  344. 'justview',
  345. 'linkbot',
  346. 'metager\-linkchecker',    # Must be before linkchecker
  347. 'linkchecker',
  348. 'microsoft_url_control',
  349. 'msiecrawler',
  350. 'nagios',
  351. 'perman',
  352. 'pompos',
  353. 'rambler',
  354. 'redalert',
  355. 'shoutcast',
  356. 'slysearch',
  357. 'surveybot',
  358. 'turnitinbot',
  359. 'turtlescanner',        # Must be before turtle
  360. 'turtle',
  361. 'ultraseek',
  362. 'webclipping\.com',
  363. 'webcompass',
  364. 'wonderer',
  365. 'yahoo\-verticalcrawler',
  366. 'yandex',
  367. 'zealbot',
  368. 'zyborg'
  369. );
  370. @RobotsSearchIDOrder_listgen = (
  371. # Generic robot
  372. 'robot',
  373. 'crawl',
  374. 'spider'
  375. );
  376.  
  377.  
  378.  
  379. # RobotsHashIDLib
  380. # List of robots names ('robot id','robot clear text')
  381. #-------------------------------------------------------
  382. %RobotsHashIDLib   = (
  383. # Common robots (In robot file)
  384. 'appie','Walhello appie',
  385. 'architext','ArchitextSpider',
  386. 'jeeves','AskJeeves',
  387. 'bjaaland','Bjaaland',
  388. 'ferret','Wild Ferret Web Hopper #1, #2, #3',
  389. 'googlebot','Googlebot',
  390. 'gulliver','Northern Light Gulliver',
  391. 'harvest','Harvest',
  392. 'htdig','ht://Dig',
  393. 'linkwalker','LinkWalker',
  394. 'lycos_','Lycos',
  395. 'moget','moget',
  396. 'muscatferret','Muscat Ferret',
  397. 'myweb','Internet Shinchakubin',
  398. 'nomad','Nomad',
  399. 'scooter','Scooter',
  400. 'slurp','Inktomi Slurp',
  401. '^voyager\/','Voyager',
  402. 'weblayers','weblayers',
  403. # Common robots (Not in robot file)
  404. 'antibot','Antibot',
  405. 'digout4u','Digout4u',
  406. 'echo','EchO!',
  407. 'fast\-webcrawler','Fast-Webcrawler',
  408. 'ia_archiver','Alexa (IA Archiver)',
  409. 'jennybot','JennyBot',
  410. 'mercator','Mercator',
  411. 'netcraft','Netcraft',
  412. 'petersnews','Petersnews',
  413. 'unlost_web_crawler','Unlost Web Crawler',
  414. 'voila','Voila',
  415. 'webbase', 'WebBase',
  416. 'wisenutbot','WISENutbot',
  417. # Less common robots (In robot file)
  418. '[^a]fish','Fish search',
  419. 'abcdatos','ABCdatos BotLink',
  420. 'acme\.spider','Acme.Spider',
  421. 'ahoythehomepagefinder','Ahoy! The Homepage Finder',
  422. 'alkaline','Alkaline',
  423. 'anthill','Anthill',
  424. 'arachnophilia','Arachnophilia',
  425. 'arale','Arale',
  426. 'araneo','Araneo',
  427. 'aretha','Aretha',
  428. 'ariadne','ARIADNE',
  429. 'arks','arks',
  430. 'aspider','ASpider (Associative Spider)',
  431. 'atn\.txt','ATN Worldwide',
  432. 'atomz','Atomz.com Search Robot',
  433. 'auresys','AURESYS',
  434. 'backrub','BackRub',
  435. 'bbot','BBot',
  436. 'bigbrother','Big Brother',
  437. 'blackwidow','BlackWidow',
  438. 'blindekuh','Die Blinde Kuh',
  439. 'bloodhound','Bloodhound',
  440. 'borg\-bot','Borg-Bot',
  441. 'brightnet','bright.net caching robot',
  442. 'bspider','BSpider',
  443. 'cactvschemistryspider','CACTVS Chemistry Spider',
  444. 'calif[^r]','Calif',
  445. 'cassandra','Cassandra',
  446. 'cgireader','Digimarc Marcspider/CGI',
  447. 'checkbot','Checkbot',
  448. 'christcrawler','ChristCrawler.com',
  449. 'churl','churl',
  450. 'cienciaficcion','cIeNcIaFiCcIoN.nEt',
  451. 'collective','Collective',
  452. 'combine','Combine System',
  453. 'conceptbot','Conceptbot',
  454. 'coolbot','CoolBot',
  455. 'core','Web Core / Roots',
  456. 'cosmos','XYLEME Robot',
  457. 'cruiser','Internet Cruiser Robot',
  458. 'cusco','Cusco',
  459. 'cyberspyder','CyberSpyder Link Test',
  460. 'desertrealm','Desert Realm Spider',
  461. 'deweb','DeWeb(c) Katalog/Index',
  462. 'dienstspider','DienstSpider',
  463. 'digger','Digger',
  464. 'diibot','Digital Integrity Robot',
  465. 'direct_hit','Direct Hit Grabber',
  466. 'dnabot','DNAbot',
  467. 'download_express','DownLoad Express',
  468. 'dragonbot','DragonBot',
  469. 'dwcp','DWCP (Dridus\' Web Cataloging Project)',
  470. 'e\-collector','e-collector',
  471. 'ebiness','EbiNess',
  472. 'elfinbot','ELFINBOT',
  473. 'emacs','Emacs-w3 Search Engine',
  474. 'emcspider','ananzi',
  475. 'esther','Esther',
  476. 'evliyacelebi','Evliya Celebi',
  477. 'fastcrawler','FastCrawler',
  478. 'fdse','Fluid Dynamics Search Engine robot',
  479. 'felix','Felix IDE',
  480. 'fetchrover','FetchRover',
  481. 'fido','fido',
  482. 'finnish','HΣmΣhΣkki',
  483. 'fireball','KIT-Fireball',
  484. 'fouineur','Fouineur',
  485. 'francoroute','Robot Francoroute',
  486. 'freecrawl','Freecrawl',
  487. 'funnelweb','FunnelWeb',
  488. 'gama','gammaSpider, FocusedCrawler',
  489. 'gazz','gazz',
  490. 'gcreep','GCreep',
  491. 'getbot','GetBot',
  492. 'geturl','GetURL',
  493. 'golem','Golem',
  494. 'grapnel','Grapnel/0.01 Experiment',
  495. 'griffon','Griffon',
  496. 'gromit','Gromit',
  497. 'gulperbot','Gulper Bot',
  498. 'hambot','HamBot',
  499. 'havindex','havIndex',
  500. 'hometown','Hometown Spider Pro',
  501. 'htmlgobble','HTMLgobble',
  502. 'hyperdecontextualizer','Hyper-Decontextualizer',
  503. 'iajabot','iajaBot',
  504. 'iconoclast','Popular Iconoclast',
  505. 'ilse','Ingrid',
  506. 'imagelock','Imagelock',
  507. 'incywincy','IncyWincy',
  508. 'informant','Informant',
  509. 'infoseek','InfoSeek Robot 1.0',
  510. 'infoseeksidewinder','Infoseek Sidewinder',
  511. 'infospider','InfoSpiders',
  512. 'inspectorwww','Inspector Web',
  513. 'intelliagent','IntelliAgent',
  514. 'irobot','I, Robot',
  515. 'iron33','Iron33',
  516. 'israelisearch','Israeli-search',
  517. 'javabee','JavaBee',
  518. 'jbot','JBot Java Web Robot',
  519. 'jcrawler','JCrawler',
  520. 'jobo','JoBo Java Web Robot',
  521. 'jobot','Jobot',
  522. 'joebot','JoeBot',
  523. 'jubii','The Jubii Indexing Robot',
  524. 'jumpstation','JumpStation',
  525. 'kapsi','image.kapsi.net',
  526. 'katipo','Katipo',
  527. 'kilroy','Kilroy',
  528. 'ko_yappo_robot','KO_Yappo_Robot',
  529. 'labelgrabber\.txt','LabelGrabber',
  530. 'larbin','larbin',
  531. 'legs','legs',
  532. 'linkidator','Link Validator',
  533. 'linkscan','LinkScan',
  534. 'lockon','Lockon',
  535. 'logo_gif','logo.gif Crawler',
  536. 'macworm','Mac WWWWorm',
  537. 'magpie','Magpie',
  538. 'marvin','marvin/infoseek',
  539. 'mattie','Mattie',
  540. 'mediafox','MediaFox',
  541. 'merzscope','MerzScope',
  542. 'meshexplorer','NEC-MeshExplorer',
  543. 'mindcrawler','MindCrawler',
  544. 'mnogosearch','mnoGoSearch search engine software',
  545. 'momspider','MOMspider',
  546. 'monster','Monster',
  547. 'motor','Motor',
  548. 'msnbot','MSNBot',
  549. 'muncher','Muncher',
  550. 'mwdsearch','Mwd.Search',
  551. 'ndspider','NDSpider',
  552. 'nederland\.zoek','Nederland.zoek',
  553. 'netcarta','NetCarta WebMap Engine',
  554. 'netmechanic','NetMechanic',
  555. 'netscoop','NetScoop',
  556. 'newscan\-online','newscan-online',
  557. 'nhse','NHSE Web Forager',
  558. 'northstar','The NorthStar Robot',
  559. 'nzexplorer','nzexplorer',
  560. 'objectssearch','ObjectsSearch',
  561. 'occam','Occam',
  562. 'octopus','HKU WWW Octopus',
  563. 'openfind','Openfind data gatherer',
  564. 'orb_search','Orb Search',
  565. 'packrat','Pack Rat',
  566. 'pageboy','PageBoy',
  567. 'parasite','ParaSite',
  568. 'patric','Patric',
  569. 'pegasus','pegasus',
  570. 'perignator','The Peregrinator',
  571. 'perlcrawler','PerlCrawler 1.0',
  572. 'phantom','Phantom',
  573. 'phpdig','PhpDig',
  574. 'piltdownman','PiltdownMan',
  575. 'pimptrain','Pimptrain.com\'s robot',
  576. 'pioneer','Pioneer',
  577. 'pitkow','html_analyzer',
  578. 'pjspider','Portal Juice Spider',
  579. 'plumtreewebaccessor','PlumtreeWebAccessor',
  580. 'poppi','Poppi',
  581. 'portalb','PortalB Spider',
  582. 'psbot','psbot',
  583. 'python','The Python Robot',
  584. 'raven','Raven Search',
  585. 'rbse','RBSE Spider',
  586. 'resumerobot','Resume Robot',
  587. 'rhcs','RoadHouse Crawling System',
  588. 'road_runner','Road Runner: The ImageScape Robot',
  589. 'robbie','Robbie the Robot',
  590. 'robi','ComputingSite Robi/1.0',
  591. 'robocrawl','RoboCrawl Spider',
  592. 'robofox','RoboFox',
  593. 'robozilla','Robozilla',
  594. 'roverbot','Roverbot',
  595. 'rules','RuLeS',
  596. 'safetynetrobot','SafetyNet Robot',
  597. 'search\-info','Sleek',
  598. 'search_au','Search.Aus-AU.COM',
  599. 'searchprocess','SearchProcess',
  600. 'senrigan','Senrigan',
  601. 'sgscout','SG-Scout',
  602. 'shaggy','ShagSeeker',
  603. 'shaihulud','Shai\'Hulud',
  604. 'sift','Sift',
  605. 'simbot','Simmany Robot Ver1.0',
  606. 'site\-valet','Site Valet',
  607. 'sitetech','SiteTech-Rover',
  608. 'skymob','Skymob.com',
  609. 'slcrawler','SLCrawler',
  610. 'smartspider','Smart Spider',
  611. 'snooper','Snooper',
  612. 'solbot','Solbot',
  613. 'speedy','Speedy Spider',
  614. 'spider_monkey','spider_monkey',
  615. 'spiderbot','SpiderBot',
  616. 'spiderline','Spiderline Crawler',
  617. 'spiderman','SpiderMan',
  618. 'spiderview','SpiderView(tm)',
  619. 'spry','Spry Wizard Robot',
  620. 'ssearcher','Site Searcher',
  621. 'suke','Suke',
  622. 'suntek','suntek search engine',
  623. 'sven','Sven',
  624. 'tach_bw','TACH Black Widow',
  625. 'tarantula','Tarantula',
  626. 'tarspider','tarspider',
  627. 'techbot','TechBOT',
  628. 'templeton','Templeton',
  629. 'titan','TITAN',
  630. 'titin','TitIn',
  631. 'tkwww','The TkWWW Robot',
  632. 'tlspider','TLSpider',
  633. 'ucsd','UCSD Crawl',
  634. 'udmsearch','UdmSearch',
  635. 'urlck','URL Check',
  636. 'valkyrie','Valkyrie',
  637. 'verticrawl','Verticrawl',
  638. 'victoria','Victoria',
  639. 'visionsearch','vision-search',
  640. 'voidbot','void-bot',
  641. 'vwbot','VWbot',
  642. 'w3index','The NWI Robot',
  643. 'w3m2','W3M2',
  644. 'wallpaper','WallPaper (alias crawlpaper)',
  645. 'wanderer','the World Wide Web Wanderer',
  646. 'wapspider','w@pSpider by wap4.com',
  647. 'webbandit','WebBandit Web Spider',
  648. 'webcatcher','WebCatcher',
  649. 'webcopy','WebCopy',
  650. 'webfetcher','webfetcher',
  651. 'webfoot','The Webfoot Robot',
  652. 'webinator','Webinator',
  653. 'weblinker','WebLinker',
  654. 'webmirror','WebMirror',
  655. 'webmoose','The Web Moose',
  656. 'webquest','WebQuest',
  657. 'webreader','Digimarc MarcSpider',
  658. 'webreaper','WebReaper',
  659. 'websnarf','Websnarf',
  660. 'webspider','WebSpider',
  661. 'webvac','WebVac',
  662. 'webwalk','webwalk',
  663. 'webwalker','WebWalker',
  664. 'webwatch','WebWatch',
  665. 'whatuseek','whatUseek Winona',
  666. 'whowhere','WhoWhere Robot',
  667. 'wired\-digital','Wired Digital',
  668. 'wmir','w3mir',
  669. 'wolp','WebStolperer',
  670. 'wombat','The Web Wombat',
  671. 'worm','The World Wide Web Worm',
  672. 'wwwc','WWWC Ver 0.2.5',
  673. 'wz101','WebZinger',
  674. 'xget','XGET',
  675. # Other robots reported by users
  676. 'aport', 'Aport',
  677. 'awbot', 'AWBot',
  678. 'baiduspider','BaiDuSpider',
  679. 'bobby', 'Bobby', 
  680. 'boris', 'Boris',
  681. 'bumblebee', 'Bumblebee (relevare.com)',
  682. 'cscrawler','CsCrawler',
  683. 'daviesbot', 'DaviesBot',
  684. 'exactseek','ExactSeek Crawler',
  685. 'ezresult',    'Ezresult',
  686. 'gigabot','GigaBot',
  687. 'gnodspider','GNOD Spider',
  688. 'grub','Grub.org',
  689. 'henrythemiragorobot', 'Mirago',
  690. 'holmes', 'Holmes',
  691. 'internetseer', 'InternetSeer',
  692. 'justview', 'JustView',
  693. 'linkbot','LinkBot',
  694. 'linkchecker','LinkChecker',
  695. 'metager\-linkchecker','MetaGer LinkChecker',
  696. 'microsoft_url_control','Microsoft URL Control',
  697. 'nagios','Nagios',
  698. 'msiecrawler','MSIECrawler',
  699. 'perman', 'Perman surfer',
  700. 'pompos','Pompos',
  701. 'rambler', 'StackRambler',
  702. 'redalert', 'Red Alert',
  703. 'shoutcast','Shoutcast Directory Service',
  704. 'slysearch','SlySearch',
  705. 'surveybot','SurveyBot',
  706. 'turnitinbot','Turn It In',
  707. 'turtle', 'Turtle',
  708. 'turtlescanner', 'Turtle',
  709. 'ultraseek', 'Ultraseek',
  710. 'webclipping\.com', 'WebClipping.com',
  711. 'webcompass', 'webcompass',
  712. 'wonderer', 'Web Wombat Redback Spider',
  713. 'yahoo\-verticalcrawler', 'Yahoo Vertical Crawler',
  714. 'yandex', 'Yandex bot',
  715. 'zealbot','ZealBot',
  716. 'zyborg','Zyborg',
  717.  
  718. # Generic root ID
  719. 'robot', 'Unknown robot (identified by \'robot\')',
  720. 'crawl', 'Unknown robot (identified by \'crawl\')',
  721. 'spider', 'Unknown robot (identified by \'spider\')',
  722.  
  723. # Unknown robots identified by hit on robots.txt
  724. 'unknown', 'Unknown robot (identified by hit on \'robots.txt\')'
  725. );
  726.  
  727.  
  728. # RobotsAffiliateLib
  729. # This list try to tell by which Search Engine a robot is used
  730. #-------------------------------------------------------------
  731. %RobotsAffiliateLib = (
  732. 'fast\-webcrawler'=>'AllTheWeb',
  733. 'googlebot'=>'Google',
  734. 'msnbot'=>'MSN',
  735. 'scooter'=>'AltaVista',
  736. 'wisenutbot'=>'Looksmart',
  737. 'yahoo\-verticalcrawler'=>'Yahoo',
  738. 'zyborg'=>'Looksmart'
  739. );
  740.  
  741.  
  742.  
  743. 1;
  744.