VyÜlo v t²denφku: CHIPweek
╚φslo:46/96
Datum:12. listopadu 1996
Strana:33
Rubrika/kategorie: Co to znamenß, kdy₧ se °ekne ...

zp∞t do archivu Φlßnk∙ | rejst°φk | p°edchozφ Φlßnek | nßsledujφcφ Φlßnek

Ji°φ Peterka

Grabber

TakΘ jste si u₧ n∞kdy po°ßdn∞ a od plic zanadßvali nad dlouhou odezvou n∞kterΘho WWW serveru? P°esn∞ji nad tφm, jak dlouho trvß ne₧ k vßm ädoteΦou" po₧adovanß data skrz Φφm dßl tφm ucpan∞jÜφ linky Internetu? Nebo jste se ji₧ n∞kdy zasnili i nad mo₧nostφ mφt cel² obsah urΦitΘho WWW serveru äu sebe", co₧ by vßm umo₧≥ovalo pohodln∞ a rychle se brouzdat jeho obsahem, a to dokonce i v dob∞ kdy v∙bec nejste p°ipojeni k Internetu?

MyÜlenka ästßhnout si k sob∞" cel² obsah urΦitΘho WWW serveru Φi n∞kterou jeho ucelenou Φßst nenφ nijak novß. Mß i svΘ racionßlnφ opodstatn∞nφ - bude-li mφt u₧ivatel po₧adovanß data p°φmo u sebe, nebude je muset pr∙b∞₧n∞ stahovat z Internetu, nebude zat∞₧ovat jeho p°enosovΘ trasy, a v neposlednφ °ad∞ odlehΦφ i svΘ kapse, kdy₧ se bude moci brouzdat i v off-line re₧imu, nebude muset b²t p°ipojen k Internetu, a tudφ₧ ani za p°ipojenφ platit.

Bylo proto jen otßzkou Φasu, kdy se objevφ prvnφ programy schopnΘ vyjφt t∞mto po₧adavk∙m vst°φc. AΦkoli jejich oznaΦenφ nenφ jeÜt∞ zcela ustßleno, nejΦast∞ji se takovΘmuto programu °φkß ägrabber" (v doslovnΘm p°ekladu ächamtivec, hltoun, hltavec", ale zde spφÜe ästahovaΦ"), a zp∙sobu jeho fungovßnφ se °φkß ägrabbing" (nejspφÜe: ästahovßnφ"). To takΘ dob°e vystihuje skuteΦnou podstatu v∞ci: grabber vystupuje jako automaticky fungujφcφ WWW prohlφ₧eΦ, kter² si z WWW serveru stahuje jednu strßnku za druhou, a uklßdß je vΦetn∞ vÜech jejich souΦßstφ (nap°φklad obrßzk∙, ikon atd.) ädo lokßlu", typicky na mφstnφ pevn² disk. D∙le₧itΘ je ovÜem uv∞domit si, ₧e nejde jen o zrychlenΘ a zautomatizovanΘ äuklßdßnφ" naΦten²ch WWW strßnek, kterΘ by si u₧ivatel mohl zajistit i sßm (by¥ mnohem mΘn∞ efektivn∞). Aby ästa₧enφm" vznikla takovß soustava lokßln∞ umφst∞n²ch WWW strßnek, kterou lze prochßzet prost°ednictvφm obvykl²ch hypertextov²ch odkaz∙, musφ b²t jejich vzßjemnΘ odkazy nßle₧it∞ upraveny (tak aby nesm∞°ovaly na p∙vodnφ verze p°φsluÜn²ch strßnek, ale na jejich ästa₧enΘ" kopie). No a tuto znaΦn∞ netrivißlnφ Φinnost mß na starosti prßv∞ zmφn∞n² program typu grabber.

Programy typu ägrabber" se dnes ji₧ vyskytujφ v mnoha variacφch, od voln∞ Üi°iteln²ch a₧ po b∞₧nΘ komerΦnφ produkty, a jejich prost°ednictvφm lze v ideßlnφm p°φpad∞ zφskat funkΦn∞ ekvivalentnφ älokßlnφ kopii" obsahu urΦitΘho WWW serveru. V b∞₧nΘ praxi ale b²vajφ konkrΘtnφ v²sledky pon∞kud mΘn∞ ideßlnφ, proto₧e celß v∞c mß n∞kolik nep°φjemn²ch ähßΦk∙".

Prvnφ problΘm ägrabbingu" spoΦφvß v tom, ₧e vzßjemn∞ provßzanΘ WWW servery v dneÜnφm Internetu vytvß°φ jednu obrovskou pavuΦinu, kterou samoz°ejm∞ nelze stßhnout celou. To lze uΦinit pouze s relativn∞ malou Φßstφ, kterou je ale nutnΘ p°esn∞ vymezit. A zde je prvnφ kßmen ·razu: jak ägrabberu" °φct, co jeÜt∞ chcete stßhnout a co u₧ ne? V∞tÜina grabber∙ postupuje tak, ₧e nejprve stßhnou urΦitou WWW strßnku, a pak se vydajφ po vÜech odkazech, kterΘ z tΘto strßnky vedou även", na dalÜφ strßnky. A prßv∞ zde je velmi t∞₧kΘ sprßvn∞ vymezit, kam a₧ se grabber smφ vydat a kam u₧ se naopak nemß zatoulat.

JeÜt∞ v∞tÜφm problΘmem je ale dynamick² charakter mnoha dneÜnφch WWW strßnek. Zde se vyskytuje celß °ada problΘm∙, se kter²mi si ani ten nejchyt°ejÜφ grabber nemß Üanci poradit - jak by m∞l nap°φklad stßhnout strßnky, kterΘ vznikajφ dynamicky, a₧ na zßklad∞ p°edchozφch po₧adavk∙ a akcφ u₧ivatele? Jak by se m∞l zachovat nap°φklad v∙Φi interaktivnφ form∞ jφzdnφho °ßdu ╚esk²ch drah, ve kterΘ lze vyhledßvat prost°ednictvφm WWW? M∞l by systematicky generovat vÜechny mo₧nΘ dotazy a stahovat odpov∞di na n∞? To by nem∞lo smysl, a nebylo by to ani reßln∞ zvlßdnutelnΘ.

Stejn∞ tak nemohou u ästßhnut²ch" strßnek z principu fungovat ani dalÜφ interaktivnφ mechanismy, vßzanΘ na skuteΦn² WWW server a jeho fungovßnφ - nap°φklad vÜelijakΘ formulß°e, tzv. klikovatelnΘ mapy apod. Samotn² proces ästahovßnφ" se pak Φφm dßl tφm vφce komplikuje i p°idßvßnφm nejr∙zn∞jÜφch prvk∙, kterΘ p°idßvajφ ä₧ivot" do p∙vodn∞ statick²ch WWW strßnek - tedy nap°φklad applet∙ jazyka Java, prvk∙ ActiveX apod. Obecn∞ m∙₧e b²t ägrabbing" relativn∞ bezproblΘmov² u statick²ch (nap°φklad Φist∞ textov²ch) strßnek, ale Φφm ä₧iv∞jÜφ" naopak WWW strßnky jsou, tφm je jejich ästahovßnφ" problematiΦt∞jÜφ.


zp∞t do archivu Φlßnk∙ | rejst°φk | p°edchozφ Φlßnek | nßsledujφcφ Φlßnek
Tento Φlßnek m∙₧e b²t voln∞ Üφ°en, pokud se tak d∞je pro studijnφ ·Φely, na nev²d∞leΦnΘm zßklad∞ a se zachovßnφm tohoto dov∞tku. Podrobnosti hledejte zde, resp. na adrese http://archiv.czech.net/copyleft.htm