Wyszukiwanie (Onet)

Szukamy - Onet.pl

Co robimy, gdy chcemy znaleźć w Internecie potrzebne nam informacje, a nie znamy adresu strony. Najczęściej korzystamy z wyszukiwarek. Proste to i wygodne :-) (a właśnie czy takie proste to można się przekonać niżej). Co zrobić jednak w sytuacji, gdy na zadane przez nas zapytanie otrzymamy wiele tysięcy wyników w postaci odwołań do jakiś stron www. W takiej sytuacji, albo zmieniamy wyszukiwarkę, albo ( lepsze rozwiązanie) zadajemy bardziej sprecyzowane zapytanie. Poniżej postaram się przybliżyć wam wyszukiwarki obsługujące rodzime (i nie tylko) zasoby oraz sposoby trafnego wyszukiwania.

Naszą przygodę z wyszukiwarkami zacznę od portalu Onet.pl. W przypadku tego portalu trudno mówić o pojedynczej wyszukiwarce. Onet.pl oferuje bogaty zestaw wyszukiwarek pozwalających szukać w najrozmaitszych bazach danych. Już na stronie głownie w oknie wyszukiwarki możemy określić gdzie chcemy szukać: Polski Internet, Światowy Internet, Katalog stron WWW, Pliki, Encyklopedia WIEM, Adresy firm (Teleadreson, Panorama firm, PKT), Ogłoszenia (Drobne - praca, Agencyjne - praca,), Towarzyskie.

Strony WWW można przeszukać za pomocą dwóch bardzo dobrych wyszukiwarek. Infoseeka - dla Polskich zasobów i legendarnej Altavisty dla zasobów zagranicznych.

Jeśli chodzi o Infoseeka (Ultraseek Server )to zgodnie z tym co można przeczytać na stronach Onetu, w maju tego roku ukończono pierwszy etap modyfikacji tej wyszukiwarki. Czego rezultatem jest posiadanie przez Infoseeka szeregu unikalnych rozwiązań technicznych i logistycznych.
Wprowadzono rzadko spotykany w naszym Internecie filtr rodzinny ( podobny filtr ma Poland.com), ale o nim za chwilę. Zastosowano nowy algorytm rozpoznawania podobnych dokumentów, przez co uzyskana lista wynikowa będzie krótsza, ale nie będzie bardziej konkretna. Podniesiono skuteczność jeśli chodzi o zwalczanie nieuczciwego podnoszenia punktacji strony ( sztucznego podbijania punktacji). Znacznie rozbudowano i poprawiono mechanizm analizy języka polskiego. W Wyszukiwarce Polskiego Internetu można dodatkowo szukać wszystkich odmian słowa oraz słów bliskoznacznych. Znacznie zwiększono aktualność bazy wyszukiwarki. Cały polski Internet został ponownie zindeksowany z uwzględnieniem nowych możliwości mechanizmu wyszukiwarki.
Poprawiono szybkość polskiego Infoseeka, cytuję: "...Dzięki rozbudowie bazy serwerów, na których pracuje wyszukiwarka, oraz wydzieleniu specjalnych potężnych maszyn, które zajmują się wyłącznie przeglądaniem zasobów Polskiego Internetu, wydajność oraz szybkość otrzymywania wyników zwiększyła się kilkukrotnie" - ( potężnych maszyn, fajnie brzmi ;-)
Obecnie zawiera bazę ponad 8 milionów polskich stron, aktualizowaną co kilkanaście dni.

Warto wspomnieć tu o filtrze rodzinnym i słowniku. Filtr rodzinny wykorzystuje zaawansowane algorytmy analizy treści występujących na stronach. Tak więc strony typu XXX nie będą wyświetlane. Podobnie ma się ze stronami zawierającymi słowa wulgarne, ogólnie ze wszystkimi stronami "nie dla dzieci" ( dobrze, że da się dezaktywować - bo jak bym znalazł moje ulubione XXX - ;-))).
Słownik z kolei rozpoznaje formy gramatyczne szukanych słów, a także wyrazy bliskoznaczne. Słownik taki powstał z konieczności. Większość bowiem wyszukiwarek opiera się za amerykańskich mechanizmach, w których nie występuje problem odmiany wyrazów. Polska język - trudna język i takie cechy posiada a to komplikuje wyszukiwanie. Słownik ten jest rozwiązaniem tego problemu. Jest to o tyle istotne ponieważ: (pozwolę sobie zaczerpnąć przykład ze strony Onetu) "Zwykle użytkownicy nie zdają sobie sprawy z tego, że wpisując w okienko
wyszukiwarki np. słowo "impreza" w wynikach nie otrzymają stron zawierających jego odmianę: "imprezy, imprezami, o imprezach, na imprezie itd...". Tu z pomocą przychodzi słownik. Powstaje on od końca lat 80-tych. Obecnie obsługuje on 1 752 212 wyrażeń plus wiele różnych form wyrazowych, liczbowych itp.
Przeszukując zagraniczne zasoby mamy do dyspozycji jak już wspomniałem AltaVista Internet Search Service (dokładnie Altaviste ISS) mająca w swojej bazie ponad 350 mln. stron. Baza wyszukiwarki znajduje się w Kalifornii, dokładnie w PaloAlto. Kiedy zadajemy zapytanie do wyszukiwarki, wędruje ono do Kalifornii, a stamtąd wyniki powracają szybkim łączem satelitarnym do Onetu. Tu także występują polskie strony, ale jest ich dużo mnie - ok. 3 mln. i są rzadziej aktualizowane.
Jeśli szukamy stron pod względem tematycznym, możemy skorzystać z katalogu. Obecnie znajduje się w nim ponad 300 tysięcy polskich adresów WWW. Witryny pogrupowane są w 2500 kategorii. Jest on zintegrowany z Infoseekiem, dzięki czemu np. w katalogu na bieżąco umieszczane są nowe witryny, nawet gdy nikt ich nie zgłosił (nie dodał do bazy), otrzymujemy sprawdzone i aktualne informacje znajdujące się na stronach. Strony z katalogu są cały czas monitorowane, przez sieciowego robota, który wyłapującego te z adresów, które nie odpowiadają, są nieaktualne bądź zmieniły lokalizację.
Jeśli ktoś chce bardziej precyzyjnych informacji to może skorzystać z baz danych. Obecnie Onet.pl udostępnia następujące bazy:

1. wyszukiwarki plików (mp3, grafik itd.)
2. bazy teleadresowej firm TeleAdreson (950 tys. adresów, telefonów, kodów branż, itd.),
3. bazy teleadresowej Polskich Książek Telefonicznych (650 tys. adresów, telefonów, kodów
pocztowych, numerów kierunkowych, itd.),
4. bazy teleadresowej Panorama Firm - baza z danymi o 900 000 firmach pogrupowanych w ponad 1 700 branż,
5. książki adresów e-mailowych - bazy ponad 100 tys. adresów e-mail, ale również pseudonimów,
adresów pracy czy zamieszkania osób, które dobrowolnie chciały te informacje udostępnić w sieci,
6. Wielkiej Internetowej Encyklopedii Multimedialnej,
7. Informacji giełdowych - notowań spółek, komunikatów spółek,
8. Katalogu Mediów Polskich - największej bazy informacji o mediach elektronicznych, prasie, radiu i
telewizji z charakterystyką medium, adresami kontaktowymi, nakładem/zasięgiem itp.,
9. baz turystycznych - informacji o hotelach, restauracjach, agroturystyce, polach kempingowych,
schroniskach, terenach narciarskich czy plażach,
10. Program TV, - możliwość wyszukiwania programów i audycji wg różnych złożonych kryteriów, personalizacja,
11. bazy ogłoszeń drobnych,
12. bazy ogłoszeń o pracy
13. giełdy motoryzacyjnej z kilkunastoma tysiącami aktualnych ogłoszeń kupię/sprzedam,
14. centrum zakupów czy aukcji,
15. Katalog WAP - największy w polskim Internecie zbiór stron dla telefonów komórkowych.

pojedyncze słowa np.
pamięć ram
Każde słowo jest traktowane oddzielnie. Wyszukiwarka znajdzie strony, które zawierają jak najwięcej słów bądź fraz użytych w zapytaniu. Na początku listy wyników pokazywane są dokumenty najlepiej odpowiadające zapytaniu.
W tym wypadku najpierw wyświetlone zostaną strony, w których występują obok siebie słowa pamieć ram (czyli np. oferty sklepów internetowych), następnie te, na których znajdują się te słowa, ale w znacznej odległości od siebie, a na końcu strony, w których występuje choćby jedno z podanych słów (czyli także o pamięci ludzkiej i fabryce ram okiennych :-))
użycie cudzysłowu
zamiast: pamięć ram
lepiej: "pamięć ram"
Frazy składające się z większej ilości słów powinny być ujęte w cudzysłów, gdyż tylko wtedy wyszukiwarka traktuje je jako całość. Poszczególne frazy należy oddzielać przecinkami.

Pierwsze zapytanie jest zbyt wieloznaczne (zobacz przykład powyżej) Przy zastosowaniu cudzysłowu wyszukiwarka znajdzie tylko te strony z tekstem pamięć ram bez innych odmienionych wariantów pojawienia się tych słów.

użycie wielkich liter
zamiast: czerwone gitary, piasek
lepiej: Czerwone Gitary, Piasek
Używając wielkich liter precyzujesz, że szukanie ma dotyczyć słów dokładnie tak zapisanych. Słowa rozpoczynające się z wielkiej litery są traktowane jak oddzielne frazy. Użycie małych liter powoduje, że wyszukiwane są wyrazy zaczynające się zarówno z małej jak i z dużej litery (np. Onet, onet). Jeśli wpiszesz słowo zaczynające się dużą literą (np. Onet), to zostaną znalezione wyłącznie wyrażenia zaczynające dużą literą.
użycie operatorów + i -
zamiast: Republika
lepiej: Republika, +serwis - kraj
Używając znaku "+" precyzujesz, że podane słowo musi wystąpić na stronie. Używając znaku "-" określasz, że podane słowo nie może wystąpić na stronie.
Dlatego w pierwszym przykładzie wyszukane zostaną zarówno Republika Południowej Afryki, Republika Czeska, itp. W drugim - tylko serwisy o nazwie Republika, a nie kraje.

przeszukiwanie w polach
"title", "url", "site", itp. zamiast: at.bjn.pl
lepiej: site:at.bjn.pl lub url:at lub link:at.bjn.pl lub title:at.bjn.pl

Można ograniczyć szukanie do konkretnych miejsc na stronach WWW, np. tytułu, adresu, serwera, itp.
Nazwa pola musi być napisana małymi literami. Zapytanie trzeba oddzielić od nazwy pola tylko dwukropkiem (bez spacji).

 

Operatory stosowane do wyszukiwania

Operatory wyszukiwania
Infoseek
Altavista
szukanie dokumentów zawierających przynajmniej jeden link do stron o podanym adresie (np. onet.pl)
np. znajdzie strony, na których jest link zatytułowany strona główna prowadzący do http://at.bjn.pl
link:at.bjn.pl

link:at.bjn.pl
szukanie dokumentów zawierających podane słowo/wyrażenie w nazwie linku
np. znajdzie link zatytułowany strona główna prowadzący do http://at.bjn.pl
  anchor:strona główna
szukanie dokumentów znajdujących się na konkretnym hoście (czyli serwerze)
  serwer:bjn.pl
szukanie strony w konkretnym serwisie (site), np.
at.bjn.pl/programowanie
site:at.bjn.pl/ programowanie
 
szukanie dokumentów w domenie onet.pl
np. adresy.onet.pl; rozrywka.onet.pl: biznes.onet.pl
 
domain:onet.pl
szukanie dokumentów ze słowem sport w adresie, czyli url-u strony
np. wynikiem wyszukiwania może być strona http://katalog.onet.pl/sport_i_rekreacja
url:sport

url:sport
szukanie dokumentów których tytuł zawiera wskazane wyrażenie "katalog www"
title:"katalog www"

title:"katalog www"
szukanie stron z innym znacznikiem meta (może to być np. author, keywords, description, itp.), który zawiera szukane słowo
pole_META:slowo
 
text: szukanie dokumentów, które jedynie w treści (a więc nie w opisach obrazków, META znacznikach, itd.) zawierają szukane słowo lub wyrażenie
  text:wyszukiwarka
szukanie dokumentów zawierających dane wyrażenie w nazwie obrazka   image:komputer
szukanie dokumentów, w których pojawia się applet javy o podanej nazwie
  applet:openwindow
szukanie dokumentów, w których pojawia się obiekt o podanej nazwie    obiect:coffe
pokazywanie dokumentów podobnych do danej strony WWW
("podobieństwo" jest ustalane przez wyszukiwarkę na podstawie różnych kryteriów, nie zawsze odpowiada to w 100% naszym oczekiwaniom :)
   like:coffe

Operatory logiczne

 

Operator
Działanie
Przykład
AND
równoważne ze znakiem + (plus)
zostaną odnalezione te dokumenty, w których występują oba wskazane słowa (niekoniecznie obok siebie).
komputery AND @t
OR
odnalezione zostaną te dokumenty, w których występuje przynajmniej jedno z wymienionych słów
at OR at.bjn.pl
NOT
równoważne ze znakiem - (minus) tylko Infoseek
wskaże dokumenty, w których nie występuje dane słowo
(czyli np. wszystko gdzie pojawia się "programy" a nie pojawia się "wirusy")
programy NOT wirusy
AND NOT
równoważne ze znakiem - (minus) tylko AltaVista
AltaVista nie zrozumie samego NOT
programy AND NOT wirusy
( )
aby zgrupować wyrażenia logiczne należy użyć nawiasów
(poszuka wszystkich dokumentów ze słowami AltaVista i Onet, ale nie tych, które są pod adresem www.altavista.com
(AltaVista AND Onet) AND NOT
url:www.altavista.wirusy


Artykuł ten powstał na podstawie wybranych informacji zawartych na stronie http://www.onet.pl/3a9

W następnym numerze dalszy ciąg charakterystyki rodzimych wyszukiwarek. Jeśli chcecie, zaproponować, która ma być następna, napiszcie do mnie.


Łukasz Kryj
xboy@poczta.wp.pl
http://cmielow.w.interia.pl


Copyright 2001 by magazyn @t.Wszelkie prawa zastrzeżone.