|
Wyszukiwanie (Onet)
Szukamy - Onet.pl
Co robimy, gdy chcemy znaleźć w Internecie
potrzebne nam informacje, a nie znamy adresu strony. Najczęściej
korzystamy z wyszukiwarek. Proste to i wygodne :-) (a właśnie czy
takie proste to można się przekonać niżej). Co zrobić jednak w
sytuacji, gdy na zadane przez nas zapytanie otrzymamy wiele tysięcy
wyników w postaci odwołań do jakiś stron www. W takiej sytuacji,
albo zmieniamy wyszukiwarkę, albo ( lepsze rozwiązanie) zadajemy
bardziej sprecyzowane zapytanie. Poniżej postaram się przybliżyć
wam wyszukiwarki obsługujące rodzime (i nie tylko) zasoby oraz
sposoby trafnego wyszukiwania.
Naszą przygodę z wyszukiwarkami zacznę od
portalu Onet.pl. W przypadku tego portalu trudno mówić o
pojedynczej wyszukiwarce. Onet.pl oferuje bogaty zestaw wyszukiwarek
pozwalających szukać w najrozmaitszych bazach danych. Już na
stronie głownie w oknie wyszukiwarki możemy określić gdzie
chcemy szukać: Polski Internet, Światowy Internet, Katalog stron
WWW, Pliki, Encyklopedia WIEM, Adresy firm (Teleadreson, Panorama
firm, PKT), Ogłoszenia (Drobne - praca, Agencyjne - praca,),
Towarzyskie.
Strony WWW można przeszukać za pomocą dwóch
bardzo dobrych wyszukiwarek. Infoseeka - dla Polskich zasobów i
legendarnej Altavisty dla zasobów zagranicznych.
Jeśli chodzi o Infoseeka (Ultraseek Server )to
zgodnie z tym co można przeczytać na stronach Onetu, w maju tego
roku ukończono pierwszy etap modyfikacji tej wyszukiwarki. Czego
rezultatem jest posiadanie przez Infoseeka szeregu unikalnych rozwiązań
technicznych i logistycznych.
Wprowadzono rzadko spotykany w naszym Internecie filtr rodzinny (
podobny filtr ma Poland.com), ale o nim za chwilę. Zastosowano nowy
algorytm rozpoznawania podobnych dokumentów, przez co uzyskana
lista wynikowa będzie krótsza, ale nie będzie bardziej konkretna.
Podniesiono skuteczność jeśli chodzi o zwalczanie nieuczciwego
podnoszenia punktacji strony ( sztucznego podbijania punktacji).
Znacznie rozbudowano i poprawiono mechanizm analizy języka
polskiego. W Wyszukiwarce Polskiego Internetu można dodatkowo szukać
wszystkich odmian słowa oraz słów bliskoznacznych. Znacznie zwiększono
aktualność bazy wyszukiwarki. Cały polski Internet został
ponownie zindeksowany z uwzględnieniem nowych możliwości
mechanizmu wyszukiwarki.
Poprawiono szybkość polskiego Infoseeka, cytuję: "...Dzięki
rozbudowie bazy serwerów, na których pracuje wyszukiwarka, oraz
wydzieleniu specjalnych potężnych maszyn, które zajmują się wyłącznie
przeglądaniem zasobów Polskiego Internetu, wydajność oraz szybkość
otrzymywania wyników zwiększyła się kilkukrotnie" - ( potężnych
maszyn, fajnie brzmi ;-)
Obecnie zawiera bazę ponad 8 milionów polskich stron, aktualizowaną
co kilkanaście dni.
Warto wspomnieć tu o filtrze rodzinnym i słowniku.
Filtr rodzinny wykorzystuje zaawansowane algorytmy analizy treści
występujących na stronach. Tak więc strony typu XXX nie będą wyświetlane.
Podobnie ma się ze stronami zawierającymi słowa wulgarne, ogólnie
ze wszystkimi stronami "nie dla dzieci" ( dobrze, że da
się dezaktywować - bo jak bym znalazł moje ulubione XXX - ;-))).
Słownik z kolei rozpoznaje formy gramatyczne szukanych słów, a
także wyrazy bliskoznaczne. Słownik taki powstał z konieczności.
Większość bowiem wyszukiwarek opiera się za amerykańskich
mechanizmach, w których nie występuje problem odmiany wyrazów.
Polska język - trudna język i takie cechy posiada a to komplikuje
wyszukiwanie. Słownik ten jest rozwiązaniem tego problemu. Jest to
o tyle istotne ponieważ: (pozwolę sobie zaczerpnąć przykład ze
strony Onetu) "Zwykle użytkownicy nie zdają sobie sprawy z
tego, że wpisując w okienko
wyszukiwarki np. słowo "impreza" w wynikach nie otrzymają
stron zawierających jego odmianę: "imprezy, imprezami, o
imprezach, na imprezie itd...". Tu z pomocą przychodzi słownik.
Powstaje on od końca lat 80-tych. Obecnie obsługuje on 1 752 212
wyrażeń plus wiele różnych form wyrazowych, liczbowych itp.
Przeszukując zagraniczne zasoby mamy do dyspozycji jak już
wspomniałem AltaVista Internet Search Service (dokładnie Altaviste
ISS) mająca w swojej bazie ponad 350 mln. stron. Baza wyszukiwarki
znajduje się w Kalifornii, dokładnie w PaloAlto. Kiedy zadajemy
zapytanie do wyszukiwarki, wędruje ono do Kalifornii, a stamtąd
wyniki powracają szybkim łączem satelitarnym do Onetu. Tu także
występują polskie strony, ale jest ich dużo mnie - ok. 3 mln. i są
rzadziej aktualizowane.
Jeśli szukamy stron pod względem tematycznym, możemy skorzystać
z katalogu. Obecnie znajduje się w nim ponad 300 tysięcy polskich
adresów WWW. Witryny pogrupowane są w 2500 kategorii. Jest on
zintegrowany z Infoseekiem, dzięki czemu np. w katalogu na bieżąco
umieszczane są nowe witryny, nawet gdy nikt ich nie zgłosił (nie
dodał do bazy), otrzymujemy sprawdzone i aktualne informacje
znajdujące się na stronach. Strony z katalogu są cały czas
monitorowane, przez sieciowego robota, który wyłapującego te z
adresów, które nie odpowiadają, są nieaktualne bądź zmieniły
lokalizację.
Jeśli ktoś chce bardziej precyzyjnych informacji to może
skorzystać z baz danych. Obecnie Onet.pl udostępnia następujące
bazy:
1. wyszukiwarki
plików (mp3, grafik itd.)
2. bazy teleadresowej firm
TeleAdreson (950 tys. adresów, telefonów, kodów branż,
itd.),
3. bazy teleadresowej Polskich Książek
Telefonicznych (650 tys. adresów, telefonów, kodów
pocztowych, numerów kierunkowych, itd.),
4. bazy teleadresowej Panorama
Firm - baza z danymi o 900 000 firmach pogrupowanych w ponad 1
700 branż,
5. książki adresów
e-mailowych - bazy ponad 100 tys. adresów e-mail, ale również
pseudonimów,
adresów pracy czy zamieszkania osób, które dobrowolnie chciały
te informacje udostępnić w sieci,
6. Wielkiej Internetowej
Encyklopedii Multimedialnej,
7. Informacji giełdowych -
notowań spółek, komunikatów spółek,
8. Katalogu Mediów Polskich -
największej bazy informacji o mediach elektronicznych, prasie,
radiu i
telewizji z charakterystyką medium, adresami kontaktowymi, nakładem/zasięgiem
itp.,
9. baz turystycznych -
informacji o hotelach, restauracjach, agroturystyce, polach
kempingowych,
schroniskach, terenach narciarskich czy plażach,
10. Program TV, - możliwość
wyszukiwania programów i audycji wg różnych złożonych kryteriów,
personalizacja,
11. bazy ogłoszeń drobnych,
12. bazy ogłoszeń o pracy
13. giełdy motoryzacyjnej
z kilkunastoma tysiącami aktualnych ogłoszeń kupię/sprzedam,
14. centrum zakupów czy aukcji,
15. Katalog WAP -
największy w polskim Internecie zbiór stron dla telefonów komórkowych.
pojedyncze słowa np.
pamięć ram
|
Każde słowo jest traktowane oddzielnie.
Wyszukiwarka znajdzie strony, które zawierają jak najwięcej
słów bądź fraz użytych w zapytaniu. Na początku listy
wyników pokazywane są dokumenty najlepiej odpowiadające
zapytaniu.
W tym wypadku najpierw wyświetlone zostaną strony, w których
występują obok siebie słowa pamieć ram (czyli np. oferty
sklepów internetowych), następnie te, na których znajdują
się te słowa, ale w znacznej odległości od siebie, a na
końcu strony, w których występuje choćby jedno z
podanych słów (czyli także o pamięci ludzkiej i fabryce
ram okiennych :-)) |
użycie cudzysłowu
zamiast: pamięć ram
lepiej: "pamięć ram"
|
Frazy składające się z większej
ilości słów powinny być ujęte w cudzysłów, gdyż
tylko wtedy wyszukiwarka traktuje je jako całość.
Poszczególne frazy należy oddzielać przecinkami.
Pierwsze zapytanie jest zbyt wieloznaczne
(zobacz przykład powyżej) Przy zastosowaniu cudzysłowu
wyszukiwarka znajdzie tylko te strony z tekstem pamięć ram
bez innych odmienionych wariantów pojawienia się tych słów.
|
użycie wielkich liter
zamiast: czerwone gitary, piasek
lepiej: Czerwone Gitary, Piasek
|
Używając wielkich liter precyzujesz, że
szukanie ma dotyczyć słów dokładnie tak zapisanych. Słowa
rozpoczynające się z wielkiej litery są traktowane jak
oddzielne frazy. Użycie małych liter powoduje, że
wyszukiwane są wyrazy zaczynające się zarówno z małej
jak i z dużej litery (np. Onet, onet). Jeśli wpiszesz słowo
zaczynające się dużą literą (np. Onet), to zostaną
znalezione wyłącznie wyrażenia zaczynające dużą literą.
|
użycie operatorów + i -
zamiast: Republika
lepiej: Republika, +serwis - kraj
|
Używając znaku "+" precyzujesz, że
podane słowo musi wystąpić na stronie. Używając znaku
"-" określasz, że podane słowo nie może wystąpić
na stronie.
Dlatego w pierwszym przykładzie wyszukane zostaną zarówno
Republika Południowej Afryki, Republika Czeska, itp. W
drugim - tylko serwisy o nazwie Republika, a nie kraje.
|
przeszukiwanie w polach
"title", "url", "site", itp.
zamiast: at.bjn.pl
lepiej: site:at.bjn.pl lub url:at lub link:at.bjn.pl lub
title:at.bjn.pl
|
Można ograniczyć szukanie do konkretnych
miejsc na stronach WWW, np. tytułu, adresu, serwera, itp.
Nazwa pola musi być napisana małymi literami. Zapytanie
trzeba oddzielić od nazwy pola tylko dwukropkiem (bez
spacji).
|
Operatory stosowane do wyszukiwania
Operatory wyszukiwania
|
Infoseek
|
Altavista
|
szukanie dokumentów zawierających
przynajmniej jeden link do stron o podanym adresie (np.
onet.pl)
np. znajdzie strony, na których jest link zatytułowany
strona główna prowadzący do http://at.bjn.pl
|
link:at.bjn.pl
|
link:at.bjn.pl
|
szukanie dokumentów zawierających podane słowo/wyrażenie
w nazwie linku
np. znajdzie link zatytułowany strona główna prowadzący
do http://at.bjn.pl
|
|
anchor:strona główna
|
szukanie dokumentów znajdujących się na
konkretnym hoście (czyli serwerze)
|
|
serwer:bjn.pl
|
szukanie strony w konkretnym
serwisie (site), np.
at.bjn.pl/programowanie
|
site:at.bjn.pl/
programowanie
|
|
szukanie dokumentów w domenie
onet.pl
np. adresy.onet.pl; rozrywka.onet.pl: biznes.onet.pl
|
|
domain:onet.pl
|
szukanie dokumentów ze słowem
sport w adresie, czyli url-u strony
np. wynikiem wyszukiwania może być strona http://katalog.onet.pl/sport_i_rekreacja |
url:sport
|
url:sport
|
szukanie dokumentów których tytuł zawiera
wskazane wyrażenie "katalog www"
|
title:"katalog www"
|
title:"katalog www"
|
szukanie stron z innym znacznikiem meta (może
to być np. author, keywords, description, itp.), który
zawiera szukane słowo
|
pole_META:slowo
|
|
text: szukanie dokumentów, które jedynie w
treści (a więc nie w opisach obrazków, META znacznikach,
itd.) zawierają szukane słowo lub wyrażenie
|
|
text:wyszukiwarka
|
szukanie dokumentów zawierających dane wyrażenie
w nazwie obrazka |
|
image:komputer
|
szukanie dokumentów, w których pojawia się
applet javy o podanej nazwie
|
|
applet:openwindow
|
szukanie dokumentów, w których pojawia się
obiekt o podanej nazwie |
|
obiect:coffe
|
pokazywanie dokumentów podobnych do danej
strony WWW
("podobieństwo" jest ustalane przez wyszukiwarkę
na podstawie różnych kryteriów, nie zawsze odpowiada to w
100% naszym oczekiwaniom :)
|
|
like:coffe
|
Operatory logiczne
Operator
|
Działanie
|
Przykład
|
AND
równoważne ze znakiem + (plus)
|
zostaną odnalezione te dokumenty, w których
występują oba wskazane słowa (niekoniecznie obok siebie).
|
komputery AND @t
|
OR
|
odnalezione zostaną te dokumenty,
w których występuje przynajmniej jedno z wymienionych słów
|
at OR at.bjn.pl
|
NOT
równoważne ze znakiem - (minus) tylko Infoseek
|
wskaże dokumenty, w których nie występuje
dane słowo
(czyli np. wszystko gdzie pojawia się "programy"
a nie pojawia się "wirusy")
|
programy NOT wirusy
|
AND NOT
równoważne ze znakiem - (minus) tylko AltaVista
AltaVista nie zrozumie samego NOT
|
programy AND NOT wirusy
|
( )
|
aby zgrupować wyrażenia logiczne należy użyć
nawiasów
(poszuka wszystkich dokumentów ze słowami AltaVista i Onet,
ale nie tych, które są pod adresem www.altavista.com
|
(AltaVista AND Onet) AND NOT
url:www.altavista.wirusy
|
Artykuł ten powstał na podstawie wybranych informacji zawartych na
stronie http://www.onet.pl/3a9
W następnym numerze dalszy ciąg charakterystyki
rodzimych wyszukiwarek. Jeśli chcecie, zaproponować, która ma być
następna, napiszcie do mnie.
Łukasz Kryj
xboy@poczta.wp.pl
http://cmielow.w.interia.pl
|
|