jak spolupracovat s pavouky
Co jsou vyhledßvaΦe - Jak pracujφ vyhledßvaΦe - Robot prochßzφ internetem - Jak p°ilßkat roboty - Zakßzßnφ p°φstupu robot∙m - Robots.txt - Meta robots - Indexovßnφ - KlφΦovß slova - Vyhledßvßnφ - P°φklady vyhledßvaΦ∙ - Trocha mytologie
T°eba Altavista nebo Google. Servery, kterΘ majφ velikou databßzi o tom, kterß strßnka internetu obsahuje jakΘ slovo. Proto╛e um∞jφ hledat v celΘm textu strßnek, °φkß se jim fulltextovΘ. TakΘ se jim °φkß pavouci, spiders nebo crawlers.
Takov²ch server∙ existujφ °ßdov∞ stovky. Neple╗te si, prosφm, fulltextovΘ vyhledßvaΦe s katalogy (Yahoo, Seznam).
Ve t°ech krocφch:
V∞t╣inou n∞kde zaΦne, t°eba v n∞jakΘm katalogu. Najde odkaz a sleduje ho. Nalezenou strßnku si stßhne pro zaindexovßnφ, zßrove≥ hledß dal╣φ odkazy, kterΘ p°φpadn∞ op∞t sleduje, aby si to zase postahoval.
Z toho vypl²vß, ╛e robot nem∙╛e odhalit strßnku, na kterou nevede ╛ßdn² odkaz. Musφ p°itom jφt o klasick² odkaz (na to obzvlß╣t∞ upozor≥uji milovnφky r∙zn²ch JavaScriptov²ch parßdiΦek).
Pokud na va╣e strßnky nebudou roboti chodit, ╛ßdn² Φtenß° ty strßnky nem∙╛e najφt vyhledßvaΦem.
V praxi ale roboti najdou jenom zlomek strßnek, kterΘ existujφ, proto╛e to prost∞ v╣echno nestφhajφ.
N∞kte°φ p°ijdou sami po tΘ, co se va╣e strßnka objevφ v n∞jakΘm katalogu. JinΘ roboty musφte popohnat. V∞t╣inou se to d∞lß na hlavnφ strßnce vyhledßvacφ slu╛by (t°eba Altavista) nenßpadn²m odkazem (p°idej odkaz, add a link, submit site, add site a podobn∞). Zadß se URL adresa (doporuΦuji kontrolovat), to je v╣e. Roboti Φasem p°ijdou.
Osobn∞ jsem skeptick² k program∙m, kterΘ slibujφ, ╛e p°idajφ odkaz do spousty zahraniΦnφch vyhledßvaΦ∙. Jednak zahraniΦnφ vyhledßvaΦe nejsou tak d∙le╛itΘ, jako ΦeskΘ, druhak se °φkß, ╛e ty programy stejn∞ jenom schra≥ujφ informace o zadavateli, aby to mohli prodat. Opravdu d∙le╛it²ch vyhledßvaΦ∙ je jen mßlo, nenφ t°eba b²t ve v╣ech ╣patn²ch. Navφc nap°φklad Altavista nedßvno t∞mto program∙m zablokovala p°φstup.
Webmaste°i mohou nastavit, aby na web roboti nechodili nebo chodili jenom n∞kte°φ a n∞kam. NejΦast∞j╣φm d∙vodem pro tato opat°enφ b²vß velkΘ zatφ╛enφ linky nebo choulostivost informacφ. Existujφ dva zßkladnφ zp∙soby, jak to ud∞lat:
Ka╛d² robot, kter² p°ijde prohledßvat vß╣ server, by se m∞l nap°ed podφvat do souboru robots.txt, zda nemß zakßzan² vstup. Soubor robots.txt musφ b²t psßn mal²mi pφsmeny a musφ b²t umφst∞n v ko°eni webu (to jest hned za .cz nebo .com nebo tak). Je to obyΦejn² tex╗ßk. JednotlivΘ °ßdky °φkajφ, kter² robot (User-agent) kam nesmφ (Disallow).
User-agent: *
Disallow: /php/
Φili v╣ichni roboti (to je ta hv∞zdiΦka) nesm∞jφ do adresß°e /php (proto╛e °et∞zcem "/php/" zaΦφnß relativnφ URL soubor∙ v n∞m). Nebo:
User-agent: Scooter
Disallow:
User-agent: Gulliver
Disallow: /
Takov² zßpis °φkß, ╛e Scooter smφ v╣ude a Gulliver nikam. V╣imn∞te si povinnΘho prßzdnΘho °ßdku mezi polo╛kami. Nebo:
User-agent: *
Disallow: /cgi-bin/
Disallow: /in
Tento zßpis zakßzal v╣em robot∙m (hv∞zdiΦka) vstupovat do adresß°e /cgi-bin a naΦφtat strßnky, kterΘ zaΦφnajφ °et∞zcem "in". Tak╛e t°eba info.html, index.html a podobn∞. To je mimochodem i p°esnß definice polo╛ky Disallow: zakazuje sledovat cesty, kterΘ zaΦφnajφ vypsan²m °et∞zcem.
V╣imn∞te si, ╛e za jednφm °ßdkem User-agent se m∙╛e vyskytovat vφce °ßdk∙ zßkaz∙.
P°φklad mΘho souboru robots.txt.
Co se tam dß psßt krom∞ hv∞zdiΦky? JmΘno robota. «el, nepodobß se jmΘn∙m slu╛by a jß t∞ch jmen moc neznßm. Informace se dajφ najφt na strßnce http://www.robotstxt.org/wc/active/html/index.html (anglicky), za odkaz d∞kuji Davidu Moravcovi.
Meta tag v hlaviΦce umo╛≥uje zakßzat robot∙m jednak indexovßnφ obsahu, jednak sledovßnφ odkaz∙. D∙vody pro takovΘ zßkazy mi nejsou moc jasnΘ, ale to ne°e╣φm. Je╣t∞ musφm zmφnit, ╛e ne v╣ichni roboti to berou na v∞domφ.
Do hlaviΦky se v HTML napφ╣e tag:
<meta name="robots" content="noindex, nofollow">
P°φpustnΘ hodnoty:
Je dost otrava, ╛e se to musφ psßt do ka╛dΘ strßnky znova. Na╣t∞stφ ne ka╛d² se setkßvß s problΘmem vlezl²ch robot∙.
╚ili zpracovßnφ dat do databßze. Ka╛d² vyhledßvaΦ si ╛v²kß nasbφranΘ informace po svΘm. NejΦast∞ji si vypisuje v╣echna slova, poΦφtß jejich vßhu a dßvß je do relace s adresou strßnky.
P°i hledßnφ slova vyplivne databßze nap°ed adresy stßnek, na kter²ch mß hledanΘ slovo velkou vßhu. Jak se vßha poΦφtß? Aneb jak se poznß, zda je slovo pro strßnku charakteristickΘ? P°edev╣φm tak, ╛e se vyskytuje v titulku, klφΦov²ch slovech, v popisu a v nadpisech.
Co vyhledßvaΦe sledujφ | Jak je to v HTML | D∙le╛itost (vßha) |
---|---|---|
titulek | <title>text titulku</title> | obrovskß |
klφΦovß slova | <meta name=keywords content="slovo, slovo"> |
znaΦnß |
popis (description) | <meta name=description content="StruΦn² popis"> |
r∙znß |
nadpis 1. ·rovn∞ | <H1>Nadpis</h1> | znaΦnß |
ostatnφ nadpisy | <Hn>Nadpis</hn> | spornß |
zaΦßtek strßnky | <body>N∞kolik prvnφch slov ... | v∞t╣φ ne╛ malß |
adresa URL | jmΘno souboru vΦetn∞ cesty | r∙znß |
text odkaz∙ mφ°φcφch na tu strßnku z jinΘho serveru | to v∞t╣inou neovlivnφte | u n∞kter²ch robot∙ obrovskß |
alty u obrßzk∙ | <img alt="zßstupn² text" ...> | malß |
text strßnky | prost∞ text | malß |
V tabulce jsem nastφnil pouze nejΦast∞j╣φ kritΘria. Je╣t∞ jednou musφm zd∙raznit, ╛e se r∙znΘ vyhledßvaΦe v poΦφtßnφ vßhy opravdu velmi li╣φ. Existujφ toti╛ specializovanφ roboti, kte°φ hledajφ t°eba jenom obrßzky nebo poΦet odkaz∙.
Velk² v²znam b²vß p°ipisovßn klφΦov²m slov∙m (keywords) a popisu (description). Jejich popis mßm u meta tag∙.
Z hlediska autora strßnek je vlastnφ vyhledßvacφ mechanismus nezajφmav². Prost∞ se dotazuje databßze a vyhazuje to v²sledky.
Je zajφmavΘ pop°em²╣let, jak se moje nalezenß strßnka zobrazφ. NejΦast∞ji se zobrazuje titulek strßnky (obsah tagu <title></title>), pod nφm t°i r∙znΘ v∞ci:
NejΦast∞ji je to prßv∞ description. Je dobrΘ jej zadßvat. Hlavn∞ je ale t°eba mφt sprßvn∞ zadan² titulek strßnky.
S Φe╣tinou jsou spojeny dv∞ zßsadnφ otßzky, kterΘ spolu nesouvisejφ:
V∞t╣inou je nutno zadßvat dotaz dvakrßt. Jednou bez diakritiky, podruhΘ s nφ. Vyskytujφ-li se navφc ve slov∞ znaky ╛, ╣ a ╗, je t°eba opakovat hledßnφ v jinΘm k≤dovßnφ. Na ΦeskΘm webu se toti╛ vyskytujφ texty ve t°ech znakov²ch sadßch: win, iso a bez diakritiky. Vizte rozdφly k≤dovßnφ.
Roboti ale k≤dovßnφ Φe╣tiny ignorujφ a zapisujφ slova tak, jak je vidφ v ascii k≤du. To znamenß, ╛e t°eba pφsmenko ╣ si zapφ╣ou jednou jako $185, jindy jako $154.
Proto p°i vyhledßvßnφ v╛dy kontrolujte, v jakΘm pracujete k≤dovßnφ (zobrazit - k≤dovßnφ).
Ze stejnΘho d∙vodu je dobrΘ zadßvat klφΦovß slova nadvakrßt -- jednou s a podruhΘ bez diakritiky. Nebo nat°ikrßt (╣╛╗). Vφce v popisu meta tag∙.
Jak vyhledßvaΦe poznajφ, v jakΘm jazyce je text? R∙zn∞. Majφ na to Φty°i mo╛nΘ zp∙soby:
Proto╛e ╛ßdnß z popsan²ch metod nenφ spolehlivß (oznaΦenφ jazyka ve v∞t╣in∞ strßnek nenφ, heuristickß anal²za je pracnß), nenφ divu, ╛e se vyhledßvaΦe Φasto v rozpoznßnφ jazyka pletou.
AnglickΘ: www.altavista.com, www.lycos.com, www.google.com, www.hotbot.com, www.monkeysweat.com, www.alltheweb.com, a stovky dal╣φch.
╚eskΘ: www.redbox.cz (totΘ╛, co google), www.megatext.cz, www.kompas.cz, www.atlas.cz, www.katedrala.cz, www.archon.cz, www.centrum.cz, www.empyreum.cz, www.najdito.cz
V╣echno, co jsem psal na tΘto strßnce, je do znaΦnΘ mφry nejistΘ. Proto╛e nejsem permanentn∞ p°ipojen na net, nemohu chovßnφ vyhledßvaΦ∙ testovat, stejn∞ bych na to nem∞l Φas. V∞t╣inu informacφ jsem n∞kde Φetl nebo p°evzal ze specifikacφ. A v tom je prßv∞ problΘm.
Domnφvßm se, ╛e ka╛d², kdo popisuje meta tagy a v∙bec chovßnφ vyhledßvaΦ∙, takΘ jenom odn∞kud opisuje, upravuje a p°ejφmß. Obßvßm se, ╛e skoro nikdo ned∞lß v oblasti vyhledßvaΦ∙ seri≤znφ v²zkum. Ono to takΘ nenφ moc dob°e mo╛nΘ, kdy╛ se musφ m∞sφc Φekat, ne╛ robot p°ijde.
Proto jsou informace na tΘto strßnce jist²m druhem m²tu, kter² se p°edßvß z generace na generaci; pravdivΘ jßdro v n∞m sice je, ale kdo vφ, jak je to opravdu?
Vizte tΘ╛: Katalogy, Meta tagy, sprßva soubor∙, nastavenφ serveru, Φe╣tina na
webu
Odkazy mimo: Seznam Φesk²ch vyhledßvacφch
server∙ Petra Kocny, O
vyhledßvacφch slu╛bßch
Obsah
Hledßnφ
Zßkladnφ kurs
Editory
HTML tipy
Provoz webu
CSS styly
Jak psßt web:
http://dusan.pc-slany.cz/internet/
Pφ╣e Yuh∙: autorova strßnka, mail: dusan@pc-slany.cz
Poslednφ aktualizace 03.11.2001