Wpisy

Web mining, czyli sieć patrzy na Ciebie

Sieć patrzy i próbuje Cię zrozumieć, żeby móc się dostosować do Twoich potrzeb, przede wszystkim zaś, by te potrzeby wykreować – tak w sporym uproszczeniu wyjaśnić można pojęcie web mining. Eksploracja danych w internecie to zjawisko związane z opisywanym już na blogu brakiem anonimowości w internecie, ale też z poruszaną niedawno kwestią coraz powszechniejszej automatyzacji. Data mining to zbiór technik —automatycznego odkrywania nietrywialnych zależności, schematów, wzorców, reguł (ang. patterns) w zbiorach danych (ang. Knowledge Discovery in Databases, KDD) . Jednym z takich zbiorów jest internet, którego eksplorację nazywamy z angielskiego web mining lub web data mining.

Analiza użytkowania sieci pozwala na kontrolę zachowań użytkowników i wysnuwanie wniosków z wyników tej kontroli. Badania mogą na przykład wykazać, że właściwe zachowanie użytkowników różni się od zachowania oczekiwanego podczas projektowania strony.  W efekcie możliwe jest wprowadzenie zmian na stronie tak, by jak najskuteczniej odpowiadała na zapotrzebowanie odbiorców.
Eksploracja zasobów może być przeprowadzona na wiele sposobów, najczęściej jednak realizowana jest według modelu Cross-Industry Standard Process for Data Mining, który składa się z sześciu etapów. 

Etapy modelu Cross-Industry Standard Process for Data Mining:

  1. —Zrozumienie uwarunkowań biznesowych na tym etapie kluczowe jest jasne sformułowanie celów i wymagań dotyczące projektu.
  2. Zrozumienie danych –  zebranie danych i ich poznanie za pomocą eksploracyjnej analizy. Na tym etapie odkryte zostają pierwsze zależności, może też ocenić jakość danych.
  3. Przygotowanie danych  wykonanie przekształceń, czyszczenie danych, usunięcie wartości skrajnych.
  4. —Modelowanie –  wybór i zastosowanie odpowiednich technik modelujących, następnie zaś skalowanie parametrów modelu w celu optymalizacji wyników. Wyróżnia się trzy główne techniki modelowania: —grupowanie, —reguły asocjacyjne i —klasyfikację.
  5. Ewaluacja –  ocena  modeli pod względem jakości i efektywności przed ich wdrożeniem. Na tym etapie konieczne jest ustalenie, czy model spełnia wszystkie założenia z pierwszego etapu.
  6. Wdrożenie – wykorzystanie modeli zgodnie z celami biznesowymi.

 Kilka elementów analizy użytkowania sieci:

  • —Analiza kliknięć (ang. click stream analysis) – do jej zrozumienia konieczna jest znajomość pojęcia strumienia kliknięć. Jest on sekwencją odwiedzanych stron przez użytkownika podczas surfowania w sieci. Oprócz odsłon dane strumienia kliknięć obejmują pliki log, pliki cookies oraz inne dane używane podczas przesyłania stron internetowych z serwera do przeglądarki.
  • —Pliki log serwera  jeszcze przed rozpoczęciem analizy kliknięć niezbędne jest zapoznanie się z rodzajem dostępnych danych do tej analizy. Informacja dotycząca sposobów korzystania z sieci przyjmuje formę plików log serwera. Dla każdego żądania z przeglądarki do serwera generuje się automatycznie odpowiedź, której wynik jest zapisywany właśnie w ten sposób – przyjmuje formę rekordu zapisanego w pojedynczej linii, który jest dołączany do pliku tekstowego znajdującego się na serwerze.
  • Rekord logu serwera EPA zawiera:
    • Pole adresu IP hosta – zawiera adres internetowy IP hosta, który wysyła żądanie. Jeśli nazwa hosta znajduje się w serwerze DNS to ta nazwa jest dostępna.
    • Pole data/czas – zawiera czas żądania.
    • Pole żądanie HTTP – zawiera informację, którą przeglądarka zażądała od serwera. Zasadniczo pole to może być podzielone na cztery części: metoda HTTP, identyfikator zasobu (URL), nagłówek i protokół.
    • Pole kodu odpowiedzi HTTP – trzycyfrowa odpowiedź z serwera na żądanie przeglądarki klienta. Oznacza status żądania, czyli powodzenie, niepowodzenie błąd i ewentualnie typ błędu.
    • Pole wielkości transferu – wskazuje na rozmiar pliku w bajtach, wysyłanego przez serwer do przeglądarki klienta. Wartość ta jest uzupełniona tylko w przypadku pomyślnego zakończenia żądania (pole kodu odpowiedzi sugeruje powodzenie).

Innym sposobem na identyfikację użytkownika są ciasteczka, czyli opisywane już pliki cookies.

I kilka ważnych pytań …

Jakich danych potrzebujemy do przeprowadzenia analizy za pomocą modelu eksploracji danych?
1. Odsłon
2. Tożsamości użytkownika
3. Sesji użytkownika (jakie strony zostały odwiedzone, w jakiej kolejności i ile to trwało)
Odpowiedzi na jakie pytania dostarcza analiza kliknięć?
1. Która strona internetowa jest najpopularniejszym punktem wejścia dla użytkowników?
2. W jakiej kolejności strony są odwiedzane?
3. Które inne witryny skierowały użytkowników na naszą stronę?
4. Ile stron odwiedzają użytkownicy podczas typowej wizyty?
5. Jak długo typowy gość przebywa na naszej stronie?
6. Która strona jest najczęściej punktem wyjścia dla użytkowników?
Jakie są zadania przetwarzania danych z pliku log?
1. Czyszczenie danych
2. Usunięcie wpisów pochodzących od robotów internetowych
3. Identyfikacja każdego użytkownika
4. Identyfikacja sesji
5. Uzupełnienie ścieżek
I najważniejsze: po co nam web mining?
  • Sprzedaż internetowaEksploracja danych może pomóc sprzedawcom internetowym, poprzez dostarczanie im przydatnych i dokładnych trendów dotyczących zachowań nabywczej swoich klientów. Dzięki temu możliwe jest bardziej precyzyjne i skuteczne dotarcie do klienta z dedykowaną ofertą.
  • Bankowość / KredytowanieEksploracja danych może pomóc instytucjom finansowym w obszarach takich jak raportowanie zdolności kredytowej oraz innych informacji kredytowych. Umożliwia oszacowanie poziomu ryzyka związanego z każdym kredytobiorcą.
  • Egzekwowanie prawaEksploracja danych może pomóc w identyfikacji osób podejrzanych oraz przestępców na bazie ich przyzwyczajeń i innych wzorców zachowań.
Czy wśród tych plusów kryją się minusy? Oczywiście, jak zawsze, gdy w grę wchodzi gromadzenie danych:
  • Kwestie bezpieczeństwaIle razy słyszeliście już o wycieku danych? No właśnie. Nawet takie giganty rynkowe jak Sony nie są bezpieczne.
  • Nieetyczne wykorzystanie danychGwarancji na to, że nasze dane wykorzystane będą tylko w dobrym celu, nie uzyskamy nigdzie. Szantaż, dyskryminacja – wszystko się zdarzyć może. Co więcej – techniki zbierania i analizy danych nie są bezwzględnie skuteczne. Wszędzie może wkraść się błąd i użytkownicy mogą ponieść tego konsekwencje.

Podsumowując …

Web mining to szansa na skrojoną na miarę ofertę sprzedawców, na usługi dostosowane do naszych potrzeb, nawet na propozycje wyprzedzające nasze zainteresowania.  Nic jednak za darmo – ceną jest tu nasza prywatność, odnotowanie przez system każdego kliknięcia. Pytanie tylko czy jest to dla nas wysoka cena – doświadczenie pokazuje, że aktualnie większość z nas zgadza się na monitorowanie naszej aktywności w Internecie.