Wpisy

Wyszukiwanie semantyczne – co to oznacza w praktyce?

Wyszukiwanie semantyczne to jedno z haseł modnych, nośnych i nie do końca jasnych. Temat zresztą nowy na tym blogu nie jest, pisałem o tym w kontekście polskich prac nad stworzeniem wyszukiwarki semantycznej.

Każdy wie, że wyszukiwanie semantyczne istnieje, każdy wie, że zmienia wszystko w SEO. Tylko jak? Z pewnością słowa kluczowe już nie liczą się tak, jak kiedyś. Na pewno powiązania liczą się bardziej niż pojedyncze wyrazy. Podobno należy zacząć Google traktować jak człowieka i pisać pod kątem żywego odbiorcy. Mówią, że we wszystko trzeba zaangażować Google+.

Tak, wszystko to prawda, tylko jak z tych ogólników zbudować strategię SEO?

Czytaj dalej

Czy polska wyszukiwarka semantyczna wyprze Google.pl?

To by było coś! Polscy naukowcy pracują nad wyszukiwarką, która stanowić miałaby konkurencję dla Google.pl. Wrocławscy uczeni buńczucznie zapewniają, że plan jest realny, a Google też było kiedyś „tylko projektem naukowym”. Walka toczy się o palmę pierwszeństwa na polu wyszukiwania semantycznego, co wymaga krótkiego wyjaśnienia.

Wyszukiwanie semantyczne to takie trochę złoty Graal wyszukiwarek – czyli dostarczanie użytkownikom najwyższej jakości wyników wyszukiwania na zapytania nie tylko dzięki słowom kluczowym, ale przede wszystkim na podstawie badania i komputerowego rozróżniania relacji między słowami. Google sprawę zna i głowi się nad tym od dawna – najlepszym tego dowodem są kolejne algorytmy, jak choćby Koliber (ang. Hummingbird) – który zdaniem wielu jest krokiem właśnie w stronę wyszukiwania semantycznego. Wszystko po to, żeby wyniki wyszukiwania były jak najbardziej trafione i precyzyjne, po prostu mądrzejsze.

Co to znaczy dla nas, twórców stron? Znaczy to tyle, że Google patrzy i srogo ocenia nieetyczne działania SEO, a bazowanie na słowach kluczowych jest co najmniej ryzykowne – jedyne co nam zostaje to troska o jakość i różnorodność publikowanych treści. Takie ukierunkowanie działań sugerowały już zresztą poprzednie algorytmy: Panda i Pingwin. Cóż, nikt nie mówił, że będzie łatwo.

Co jednak w związku z tym kombinują polscy naukowcy? Nekst – tak ma się nazywać nowa polska wyszukiwarka internetowa. Pracują nad nią specjaliści od sztucznej inteligencji z Politechniki Wrocławskiej, lingwiści z Uniwersytetu Wrocławskiego oraz naukowcy Polskiej Akademii Nauk. Jak zapewniają – Nekst ma rozumieć znaczenie słów. W praktyce ma to wyglądać tak, że użytkownik wpisze pytanie, które program zrozumie i wybierze polskie teksty z internetowego zasobu, które będą najlepiej na nie odpowiadały. Na tę odpowiedź będziemy musieli chwilę poczekać – od kilkunastu sekund do kilku minut, czego przyczyną są zrozumiałe ograniczenia obliczeniowe.

Prace nad wyszukiwarką zaczęły się w 2010 roku, premiera zapowiedziana jest na wiosnę. Okazją do debiutu i udostępnienia Nekstu użytkownikom ma być zakończenie skanowania połowy polskojęzycznych dokumentów dostępnych w internecie. Sprawa jest poważna, bo w sumie jest ich około miliarda. Najbardziej optymistyczny plan zakłada zeskanowanie całości i bieżące aktualizowanie danych oraz powstanie wyszukiwarki obrazów.

Podstawą wyszukiwarki ma być Słowosieć – twór wcale nie nowy, doceniany przez samego Google i wykorzystywany przez Google Translator. Pod tą do bólu polską nazwą kryje się WordNet języka polskiego, czyli rodzaj sieci semantycznej, która odzwierciedla jego system leksykalny: słowa, ich znaczenia i różnorodne relacje między nimi. Wordnety służą automatycznej analizie tekstu.

Aktualna Słowosieć 2.0 stworzona została przez zespół badaczy z Wydziału Informatyki i Zarządzania Politechniki Wrocławskiej. Debiutowała już niemal rok temu.  To pierwszy tak duży słownik języka polskiego, drugi co do wielkości WordNet na świecie, po słynnym Wordnecie z Princeton. Co oznacza „duży” w tym wypadku? Słowosieć tworzy pajęczynę ponad 106 tys. wyrazów, 158 tys. różnych znaczeń – połączonych ponad 440 tys. relacji.

Czyli jest niezła baza do pracy nad wyszukiwarką, co będzie dalej? Zobaczymy i patriotycznie trzymamy kciuki.