Badania:SOM

Self Organized Maps (SOM) w klasyfikacji

Od roku 2000-ego są prowadzone intensywne badania nad automatyczną organizacją zasobów dokumentów tekstowych w odpowiedzi na zapytanie w wyszukiwarce. W tematycznej kategoryzacji dokumentów przyjęte jest stosowanie algorytmów klasteryzujących. W dendrogramicznych reprezentacjach (drzewo hierarchiczne) n-te rozszczepienie ma miejsce, lecz n jest liczbą stałą dla każdego poziomu. Do klasteryzacji dokumentów sieciowych używa się takich metod bazujących na teorii informacji, probabilistycznych, t.j. oczekiwania maksymalizacji. Dendrogramy zawierające ogromną liczbę kategorii dla dużych zbiorów dokumentów nie dokładnie odwzorowuje strukturę drzewa dokumentów. Wydajną metodą do wizualizacji dużych zbiorów danych stały się sieci neuronowe, biologiczna natura których wiąże się ze sposobnością wychwytywania złożonych relacji pomiędzy jednostkami pomiarowymi. Do tych celów stosuje się następujące metody SSN: rozmyte ART. (Addaptive Rezonanse Theory) oraz mapy samoorganizujące się SOM-y. Druga nazwa to: sieci Kohonena. SOM, wprowadzone przez Kohonena więcej niż dekadę wstecz, są znane jako algorytmy, służące do topologicznej klasyfikacji obiektów.

SOM-y mają dwie wyraziste cechy: redukcja nieliniowej wymiarowości i zachowanie topologii klasterów. Wejściowa przestrzeń jest mapowana na przestrzeń o mniejszym wymiarze z minimalnym zniekształcenie informacji. Zachowanie topologii powoduje bliskie umiejscowienie na mapie podobnych dokumentów lub topików . Wadą jest iż dla wizualizacji różnych poziomów abstrakcji potrzebny jest skomplikowany interfejs.

Ciąg prac dotyczy różnych typów SOM:

- GSOM (growing SOM, Alakoon, 2000) – mapy dla szybko rosnących zbiorów

- GH-SOM (growing hierarchical SOM) – mapy dla zbiorów o zmieniającej się hierarchii taksonomii. W eksploracji 2-wymiarowych map są trudności w sformowaniu wyrazistych asocjacji. Próbowano za pomocą takich map udoskonalić biblioteczną reprezentację zbiorów. Porządkowanie zasobów bibliotecznych wzoruje się na np. DDC (Dewey decimal classification system) czyli ksiązki są posortowane w 1-wymiarową hierarchię (???) predefiniowanych tematów – klas.

-SSOM (Scalable SOM) wykorzystywane są cechy Booleana i cech rzadkich dokumentu.

-LABEL-SOM – dla każdego węzła wielopoziomowego SOM szuka się pasujących tematycznie słów (słowa kluczowe lub określniki) dokumentów (Rauber 2002) stosując błąd kwantyzacji.

- WEBSOM – częstotliwość występowania słów określa szukane terminy. (Lagus 1999).

Konstruowanie HSOM w przestrzeni hiperbolicznej. Wg [3].

W SOM-ach oblicza się odległości wszystkich neuronów od sygnału wejściowego, następnie wyłania się zwycięzcę i modyfikuje się jego wagi i jego sąsiadów – stąd istotny jest graf sąsiedztwa, który utworzyć ma mapę topologiczną sieci. W wyniku, SOM-y „rozpinają się” wokół danych wejściowych, dopasowując swoją strukturę do ich struktury.

BIBLIOGRAFIA:

[1] Ontrup, J., Ritter, H. Text Categorization and Semantic Browsing with Self-Organizing Maps on non-euclidean Spaces. In Proceedings of PKDD-01 5th European Conference on Principles and Practice of Knowledge Discovery in Databases [on-line]. 2001. [on-line]: http://www.informatik.uni-trier.de/

[2] Pepper, S.. Euler, Topic Maps, and Revolution. In Infoloom. Semantic Integration Technologies [on-line]. 03. 1999 [on-line] http://www.infoloom.com/tmsample/pep4.html

[3] Ritter, H.. Self-organizing Maps in non-euclidean Spaces. In: Oja, E., Kaski, S. (red.) Kohonen Maps [on-line]. Elsevier, Amsterdam, 1999 [on-line] http://www.informatik.uni-trier.de/

[4] http://www.cs.unm.edu/~joel/NonEuclid/

powrót