Badania:Klasyfikacja Automatyczna

Klasyfikacja Automatyczna

W nowoczesnych strategiach klasyfikacji automatycznej, która odzwierciadlałaby aktualny stan rozwoju nauk panują dwa główne nurty: metody statystyczne oraz oparte na zarządzaniu wiedzą.

Pierwszy jest przeznaczony do klasyfikowania dużych zasobów dokumentów i wykorzystuje automatyczne algorytmy kategoryzacji i klasteryzacji tekstu. W algorytmach określa się wektor/wektory/mapę cech zbioru obiektów. W zależności od koncepcji badaczy, mogą nimi być słowa kluczowe, odległość pomiędzy wyrazami, sekwencje słów, semantyczne podobieństwa i relacje, hierarchia elementów, występowanie spójników, elementy graficzne z otaczającym tekstem, topologia obiektów, formaty i rozmiary plików.

Drugi nurt związany jest z technikami zarządzania wiedzą (knowledge-based) w bazach wiedzy i modulowaniu sieci semantycznych. Inżynieria wiedzy wymaga zazwyczaj ręcznego wkładu, co jest czasochłonne. Automatyzacja procesu klasyfikacji zachodzi na etapie populacji jej struktury danymi. Najlepsze wyniki jak dotychczas uzyskano w granicach wąskich domen.

Analiza ukrytych grup semantycznych (Latent Semantic Analysis-LSA)

Wektorowy model dokumentu wykorzystywany jest następnie w technice zwanej LSA - analiza ukrytych grup semantycznych, opatentowanej w roku 1990 przez S. Deerwester’a, S. Dumas, G. Furnas’a i T. Landauer’a. LSA zakłada, ze zbiór dokumentów składa się ze znanej ilości grup (przyszłych klastrów). Mimo, iż ilość grup jest znana (założona z góry) dla konkretnego wykonania programu, to cechy klasyfikujące poszczególne elementy są ukryte (nieznane). Celem metody LSA jest znalezienie dokumentów, które nie koniecznie maja ten sam zadany zbiór słów, ale są na ten sam temat [3].

Metoda SVD w zastosowaniu do macierzy częstotliwości [3].

Projekt Scorpion [7]

Stowarzyszenie OCLC (OnLine Computer Library Center) w ramach badań nad automatyczną klasyfikacją stworzyli w 2005 roku i udostępnili jako OpenSource oprogramowanie Scorpion: http://www.oclc.org/research/software/scorpion/default.htm. Program dokonuje automatycznej klasyfikacji w systemie DDC lub innym rozpoznawanym przez maszynę dokumentów sieciowych. Naukowcy z OCLC w swoich pracach koncentrują się na ontologicznej technologii zwanej Topic Maps [7].

BIBLIOGRAFIA:

[1] Börner, K. et al. LVIS-digital Library Visualizer. In Information Visualisation [on-line]. London: 2000 http://citeseer.ist.psu.edu/559314.html

[2] Börner, K. Visual Interfaces for Semantic Information Retrieval and Browsing [on-line]. In Visualizing the Semantic Web: XML-based Internet and Information Visualization, Springer Verlag, 2002 http://citeseer.ist.psu.edu/571532.html

[3] Osińska, V. Przybliżenie semantyczne w wizualizacji informacji w Internecie i bibliotekach cyfrowych [on-line]. EBIB 2006 Nr76 http://www.ebib.info/2006/77/osinska.php

[4] Deerwester, S. et al. Indexing by Latent Semantic Analysis [on-line].In Journal of the Society for Information Science, 1990 41(6), s. 391-407. [dostęp 21 maja 2006]. Dostępny w World Wide Web: http://lsi.research.telcordia.com/lsi/papers/JASIS90.pdf

1.[5] Kingston, J. Ontology, Knowledge Management, Knowledge Engineering and the ACM Classification Scheme. In Proceedings of ES’02, the 22^nd Annual International Conference of the British Computer Society's Specialist Group on Artificial Intelligenc, Cambridge, 10-12 December 2002 [on-line]. http://www.inf.ed.ac.uk/publications/online/0169.pdf

[6] [6]2.Maly, K. et al. An Automated Classification System and Associated Digital Library Services. [on-line], July 2001 http://www.cs.odu.edu/~anan/publications.htm.

[7] Automatic Classification Research at OCLC. [on-line] http://www.oclc.org/research/projects/auto_class/default.htm

powrót