Vyhledßvacφ roboti

jak spolupracovat s pavouky

Co jsou vyhledßvaΦe - Jak pracujφ vyhledßvaΦe - Robot prochßzφ internetem - Jak p°ilßkat roboty - Zakßzßnφ p°φstupu robot∙m - Robots.txt - Meta robots - Indexovßnφ - KlφΦovß slova - Vyhledßvßnφ - P°φklady vyhledßvaΦ∙ - Trocha mytologie

Co jsou vyhledßvaΦe

T°eba Altavista nebo Google. Servery, kterΘ majφ velikou databßzi o tom, kterß strßnka internetu obsahuje jakΘ slovo. Proto╛e um∞jφ hledat v celΘm textu strßnek, °φkß se jim fulltextovΘ. TakΘ se jim °φkß pavouci, spiders nebo crawlers.

Takov²ch server∙ existujφ °ßdov∞ stovky. Neple╗te si, prosφm, fulltextovΘ vyhledßvaΦe s katalogy (Yahoo, Seznam).

Jak pracujφ vyhledßvaΦe

Ve t°ech krocφch:

  1. Roboti sbφrajφ data
  2. Pak se to zpracuje do databßze (indexovßnφ)
  3. Nakonec se to zp°φstupnφ nßv╣t∞vnφk∙m, aby mohli klßst dotaz.

Robot prochßzφ internetem

V∞t╣inou n∞kde zaΦne, t°eba v n∞jakΘm katalogu. Najde odkaz a sleduje ho. Nalezenou strßnku si stßhne pro zaindexovßnφ, zßrove≥ hledß dal╣φ odkazy, kterΘ p°φpadn∞ op∞t sleduje, aby si to zase postahoval.

Z toho vypl²vß, ╛e robot nem∙╛e odhalit strßnku, na kterou nevede ╛ßdn² odkaz. Musφ p°itom jφt o klasick² odkaz (na to obzvlß╣t∞ upozor≥uji milovnφky r∙zn²ch JavaScriptov²ch parßdiΦek).

Pokud na va╣e strßnky nebudou roboti chodit, ╛ßdn² Φtenß° ty strßnky nem∙╛e najφt vyhledßvaΦem.

V praxi ale roboti najdou jenom zlomek strßnek, kterΘ existujφ, proto╛e to prost∞ v╣echno nestφhajφ. 

Jak p°ilßkat roboty

N∞kte°φ p°ijdou sami po tΘ, co se va╣e strßnka objevφ v n∞jakΘm katalogu. JinΘ roboty musφte popohnat. V∞t╣inou se to d∞lß na hlavnφ strßnce vyhledßvacφ slu╛by (t°eba Altavista) nenßpadn²m odkazem (p°idej odkaz, add a link, submit site, add site a podobn∞). Zadß se URL adresa (doporuΦuji kontrolovat), to je v╣e. Roboti Φasem p°ijdou.

Osobn∞ jsem skeptick² k program∙m, kterΘ slibujφ, ╛e p°idajφ odkaz do spousty zahraniΦnφch vyhledßvaΦ∙. Jednak zahraniΦnφ vyhledßvaΦe nejsou tak d∙le╛itΘ, jako ΦeskΘ, druhak se °φkß, ╛e ty programy stejn∞ jenom schra≥ujφ informace o zadavateli, aby to mohli prodat. Opravdu d∙le╛it²ch vyhledßvaΦ∙ je jen mßlo, nenφ t°eba b²t ve v╣ech ╣patn²ch. Navφc nap°φklad Altavista nedßvno t∞mto program∙m zablokovala p°φstup. 

Zakßzßnφ p°φstupu robot∙m

Webmaste°i mohou nastavit, aby na web roboti nechodili nebo chodili jenom n∞kte°φ a n∞kam. NejΦast∞j╣φm d∙vodem pro tato opat°enφ b²vß velkΘ zatφ╛enφ linky nebo choulostivost informacφ. Existujφ dva zßkladnφ zp∙soby, jak to ud∞lat:

  1. Pro cel² web najednou souborem robots.txt
  2. Pro ka╛d² soubor zvlß╣╗ pomocφ meta tagu v hlaviΦce

Robots.txt

Ka╛d² robot, kter² p°ijde prohledßvat vß╣ server, by se m∞l nap°ed podφvat do souboru robots.txt, zda nemß zakßzan² vstup. Soubor robots.txt musφ b²t psßn mal²mi pφsmeny a musφ b²t umφst∞n v ko°eni webu (to jest hned za .cz nebo .com nebo tak). Je to obyΦejn² tex╗ßk. JednotlivΘ °ßdky °φkajφ, kter² robot (User-agent) kam nesmφ (Disallow).

P°φklady

User-agent: *

Disallow: /php/

Φili v╣ichni roboti (to je ta hv∞zdiΦka) nesm∞jφ do adresß°e /php (proto╛e °et∞zcem "/php/" zaΦφnß relativnφ URL soubor∙ v n∞m). Nebo:

User-agent: Scooter

Disallow:

 

User-agent: Gulliver

Disallow: /

Takov² zßpis °φkß, ╛e Scooter smφ v╣ude a Gulliver nikam. V╣imn∞te si povinnΘho prßzdnΘho °ßdku mezi polo╛kami. Nebo:

User-agent: *

Disallow: /cgi-bin/

Disallow: /in

Tento zßpis zakßzal v╣em robot∙m (hv∞zdiΦka) vstupovat do adresß°e /cgi-bin a naΦφtat strßnky, kterΘ zaΦφnajφ °et∞zcem "in". Tak╛e t°eba info.html, index.html a podobn∞. To je mimochodem i p°esnß definice polo╛ky Disallow: zakazuje sledovat cesty, kterΘ zaΦφnajφ vypsan²m °et∞zcem.

V╣imn∞te si, ╛e za jednφm °ßdkem User-agent se m∙╛e vyskytovat vφce °ßdk∙ zßkaz∙.

P°φklad mΘho souboru robots.txt.

User-agent

Co se tam dß psßt krom∞ hv∞zdiΦky? JmΘno robota. «el, nepodobß se jmΘn∙m slu╛by a jß t∞ch jmen moc neznßm. Informace se dajφ najφt na strßnce http://www.robotstxt.org/wc/active/html/index.html (anglicky), za odkaz d∞kuji Davidu Moravcovi. 

ProblΘmy

Meta robots

Meta tag v hlaviΦce umo╛≥uje zakßzat robot∙m jednak indexovßnφ obsahu, jednak sledovßnφ odkaz∙. D∙vody pro takovΘ zßkazy mi nejsou moc jasnΘ, ale to ne°e╣φm. Je╣t∞ musφm zmφnit, ╛e ne v╣ichni roboti to berou na v∞domφ.

Do hlaviΦky se v HTML napφ╣e tag:

<meta name="robots" content="noindex, nofollow">

P°φpustnΘ hodnoty:

noindex
Obsah strßnky nebude indexovßn
index
Obsah strßnky bude indexovßn (normßlnφ hodnota)
nofollow
Odkazy nebudou sledovßny
follow
Odkazy budou sledovßny (normßl)

Je dost otrava, ╛e se to musφ psßt do ka╛dΘ strßnky znova. Na╣t∞stφ ne ka╛d² se setkßvß s problΘmem vlezl²ch robot∙.

Indexovßnφ

╚ili zpracovßnφ dat do databßze. Ka╛d² vyhledßvaΦ si ╛v²kß nasbφranΘ informace po svΘm. NejΦast∞ji si vypisuje v╣echna slova, poΦφtß jejich vßhu a dßvß je do relace s adresou strßnky.

Vßha (d∙le╛itost)

P°i hledßnφ slova vyplivne databßze nap°ed adresy stßnek, na kter²ch mß hledanΘ slovo velkou vßhu. Jak se vßha poΦφtß? Aneb jak se poznß, zda je slovo pro strßnku charakteristickΘ? P°edev╣φm tak, ╛e se vyskytuje v titulku, klφΦov²ch slovech, v popisu a v nadpisech.

Co vyhledßvaΦe sledujφ Jak je to v HTML D∙le╛itost (vßha)
titulek <title>text titulku</title> obrovskß
klφΦovß slova <meta name=keywords
content="slovo, slovo">
znaΦnß
popis (description) <meta name=description
content="StruΦn² popis">
r∙znß
nadpis 1. ·rovn∞ <H1>Nadpis</h1> znaΦnß
ostatnφ nadpisy <Hn>Nadpis</hn> spornß
zaΦßtek strßnky <body>N∞kolik prvnφch slov ... v∞t╣φ ne╛ malß
adresa URL jmΘno souboru vΦetn∞ cesty r∙znß
text odkaz∙ mφ°φcφch na tu strßnku z jinΘho serveru to v∞t╣inou neovlivnφte u n∞kter²ch robot∙ obrovskß
alty u obrßzk∙ <img alt="zßstupn² text" ...> malß
text strßnky prost∞ text malß

V tabulce jsem nastφnil pouze nejΦast∞j╣φ kritΘria. Je╣t∞ jednou musφm zd∙raznit, ╛e se r∙znΘ vyhledßvaΦe v poΦφtßnφ vßhy opravdu velmi li╣φ. Existujφ toti╛ specializovanφ roboti, kte°φ hledajφ t°eba jenom obrßzky nebo poΦet odkaz∙.

KlφΦovß slova

Velk² v²znam b²vß p°ipisovßn klφΦov²m slov∙m (keywords) a popisu (description). Jejich popis mßm u meta tag∙.

Vyhledßvßnφ

Z hlediska autora strßnek je vlastnφ vyhledßvacφ mechanismus nezajφmav². Prost∞ se dotazuje databßze a vyhazuje to v²sledky.

Forma v²sledk∙

Je zajφmavΘ pop°em²╣let, jak se moje nalezenß strßnka zobrazφ. NejΦast∞ji se zobrazuje titulek strßnky (obsah tagu <title></title>), pod nφm t°i r∙znΘ v∞ci:

  1. Bu∩to obsah meta tagu description,
  2. nebo prvnφch n∞kolik slov ze zaΦßtku strßnky
  3. nebo kusy textu kolem hledanΘho v²razu.

NejΦast∞ji je to prßv∞ description. Je dobrΘ jej zadßvat. Hlavn∞ je ale t°eba mφt sprßvn∞ zadan² titulek strßnky.

╚e╣tina

S Φe╣tinou jsou spojeny dv∞ zßsadnφ otßzky, kterΘ spolu nesouvisejφ:

  1. Jak vyhledßvat hßΦkovanß a Φßrkovanß slova?
  2. Jak poznß vyhledßvaΦ, ╛e je strßnka Φesky? (T°eba Altavista nebo Google to umφ poznat)

HßΦky a Φßrky

V∞t╣inou je nutno zadßvat dotaz dvakrßt. Jednou bez diakritiky, podruhΘ s nφ. Vyskytujφ-li se navφc ve slov∞ znaky ╛, ╣ a ╗, je t°eba opakovat hledßnφ v jinΘm k≤dovßnφ. Na ΦeskΘm webu se toti╛ vyskytujφ texty ve t°ech znakov²ch sadßch: win, iso a bez diakritiky. Vizte rozdφly k≤dovßnφ.

Roboti ale k≤dovßnφ Φe╣tiny ignorujφ a zapisujφ slova tak, jak je vidφ v ascii k≤du. To znamenß, ╛e t°eba pφsmenko ╣ si zapφ╣ou jednou jako $185, jindy jako $154.

Proto p°i vyhledßvßnφ v╛dy kontrolujte, v jakΘm pracujete k≤dovßnφ (zobrazit - k≤dovßnφ).

Ze stejnΘho d∙vodu je dobrΘ zadßvat klφΦovß slova nadvakrßt -- jednou s a podruhΘ bez diakritiky. Nebo nat°ikrßt (╣╛╗). Vφce v popisu meta tag∙.

Rozpoznßnφ jazyka

Jak vyhledßvaΦe poznajφ, v jakΘm jazyce je text? R∙zn∞. Majφ na to Φty°i mo╛nΘ zp∙soby:

  1. hledajφ meta deklaraci jazyka: <meta http-equiv="Content-Language" content="cs">
  2. hledajφ atribut lang=cs v jakΘmoli tagu
  3. provßd∞jφ heuristickou anal²zu, prost∞ Φtou text a sna╛φ se poΦφtat slova charakteristickß pro ten kter² jazyk (nap°. "se", "ale" nebo "je" pro Φe╣tinu).
  4. orientujφ se podle generickΘ domΘny (.cz) co╛ je ale velmi nespolehlivΘ

Proto╛e ╛ßdnß z popsan²ch metod nenφ spolehlivß (oznaΦenφ jazyka ve v∞t╣in∞ strßnek nenφ, heuristickß anal²za je pracnß), nenφ divu, ╛e se vyhledßvaΦe Φasto v rozpoznßnφ jazyka pletou.

P°φklady vyhledßvaΦ∙

AnglickΘ: www.altavista.com, www.lycos.com, www.google.com, www.hotbot.com, www.monkeysweat.com, www.alltheweb.com, a stovky dal╣φch.

╚eskΘ: www.redbox.cz (totΘ╛, co google), www.megatext.cz, www.kompas.cz, www.atlas.cz, www.katedrala.cz, www.archon.cz, www.centrum.cz, www.empyreum.cz, www.najdito.cz

Trocha mytologie

V╣echno, co jsem psal na tΘto strßnce, je do znaΦnΘ mφry nejistΘ. Proto╛e nejsem permanentn∞ p°ipojen na net, nemohu chovßnφ vyhledßvaΦ∙ testovat, stejn∞ bych na to nem∞l Φas. V∞t╣inu informacφ jsem n∞kde Φetl nebo p°evzal ze specifikacφ. A v tom je prßv∞ problΘm.

Domnφvßm se, ╛e ka╛d², kdo popisuje meta tagy a v∙bec chovßnφ vyhledßvaΦ∙, takΘ jenom odn∞kud opisuje, upravuje a p°ejφmß. Obßvßm se, ╛e skoro nikdo ned∞lß v oblasti vyhledßvaΦ∙ seri≤znφ v²zkum. Ono to takΘ nenφ moc dob°e mo╛nΘ, kdy╛ se musφ m∞sφc Φekat, ne╛ robot p°ijde.

Proto jsou informace na tΘto strßnce jist²m druhem m²tu, kter² se p°edßvß z generace na generaci; pravdivΘ jßdro v n∞m sice je, ale kdo vφ, jak je to opravdu?

Vizte tΘ╛: Katalogy, Meta tagy, sprßva soubor∙, nastavenφ serveru, Φe╣tina na webu
Odkazy mimo: Seznam Φesk²ch vyhledßvacφch server∙ Petra Kocny, O vyhledßvacφch slu╛bßch

Pφ╣e Yuh∙
dusan@pc-slany.cz
mail formulß°em
Jak psßt web O tvorb∞, ·dr╛b∞ a zlep╣ovßnφ internetov²ch strßnek.

Zßklady HTML CSS FrontPage Hledßnφ

Obsah

Hlavnφ strßnka

Novinky

FAQ

Download

Zdroje

Hledßnφ


Roz╣φ°enΘ

Zßkladnφ kurs

Jak ud∞lat strßnku

Zßklady HTML

Publikovßnφ

Zßsady psanφ

Editory

R∙znΘ prohlφ╛eΦe

Editory

FrontPage 2000

FP Editor 98

Word 97

FrontPage Express

HTML tipy

P°φprava obrßzk∙

Obrßzky

Pozadφ

Odkazy

Vychytßvky odkaz∙

Zßlo╛ky

Aktivnφ mail

Tabulky

┌prava tabulek

Novinky tabulek

Design tabulkami

Rßmy

Formßtovßnφ rßm∙

Rßmy nepou╛φvat

Iframe

Formulß°e

Formulß°e v HTML

DokonalΘ formulß°e

Zßpis barev

Definice

Formßtovacφ chyby

Jak ud∞lat levΘ menu

Vyt∞╛ovßnφ strßnek

Provoz webu

Rychlost strßnek

VzdßlenΘ slu╛by

VyhledßvaΦe

Katalogy

Sprßva soubor∙

Ikona strßnky

Obsah / forma

╚e╣tina

Chyby Φe╣tiny

Tabulky k≤dovßnφ

Meta tagy

Nastavenφ serveru

Programovßnφ strßnek

ZaΦßtky PHP

Mo╛nosti PHP

Pou╛φvßnφ prohlφ╛eΦe

CSS styly

CSS styly

┌vod do CSS

Struktura textu

CSS prakticky

P╪EHLED VLASTNOST═ CSS

Slo╛it∞j╣φ deklarace

DΘlkovΘ jednotky

Pozicovßnφ

Sloupce pozicovßnφm

Okraje objekt∙

Odli╣enφ prohlφ╛eΦ∙

Omezenφ CSS

Odli╣n² tisk

DynamickΘ HTML

Filtry

P°φklady filtr∙

R∙znΘ barvy odkaz∙

Barva rolovacφ li╣ty

 


Jak psßt web: http://dusan.pc-slany.cz/internet/

Pφ╣e Yuh∙: autorova strßnka, mail: dusan@pc-slany.cz

Poslednφ aktualizace 03.11.2001