Search for content and authors
 

Analiza porównawcza struktur hierarchicznych skupień uzyskanych w oparciu o hybrydowe metody grupowania

Kamila Najman 

Uniwersytet Gdański Wydział Zarządzania (WZR), Armii Krajowej 101, Sopot 81-824, Poland

Abstract

Jednym z celów analizy wielowymiarowych zbiorów danych jest wyróżnienie homogenicznych grup obiektów. Grupy te skupiają obiekty, które z punktu widzenia badanych cech są do siebie podobne. Wyróżnienie takich grup stanowi istotę analizy skupień i jest zagadnieniem dobrze znanym. Innym aspektem analizy danych wielowymiarowych jest ustalenie hierarchii obiektów. Hierarchia ta wskazuje, które obiekty i w jaki sposób są do siebie podobne. W badaniach empirycznych pojawia się coraz większa potrzeba połączenia obu tych aspektów badań zbiorów wielowymiarowych. Gwałtownie rozwijająca się informatyzacja życia ekonomicznego powoduje między innymi znaczny rozwój wielkości baz danych. Nierzadko bazy te zawierają dziesiątki tysięcy obiektów charakteryzowanych kilkudziesięcioma zmiennymi. Jedną z konsekwencji analizy takich zbiorów danych jest to, że ustalenie hierarchii obiektów staje się trudne do przeprowadzenia a uzyskana struktura jest często tak nieczytelna, że niemożliwa do praktycznego zastosowania. Jednocześnie badane zbiory danych charakteryzują się dużą liczbą skupień przekraczającą czasami liczbę 50. Obie powyższe konsekwencje ilościowych zmian w badanych zbiorach danych powodują, że konsumenci wyników badań statystycznych są dziś zainteresowani nie tylko strukturą hierarchiczną obiektów i wyodrębnieniem skupień, ale także strukturą hierarchiczną samych skupień.

Celem prezentowanych badań jest prezentacja i opis własności dwustopniowych metod grupowania obiektów w rozpoznawaniu hierarchicznej struktury skupień. Do wyodrębnienia skupień zostaną zastosowane metody optymalizacyjne: k-średnich, w-średnich k-medoids i sieć neuronowa typu SOM. Hierarchiczna struktura skupień wyodrębnionych przy pomocy powyższych metod będzie następnie analizowana klasycznymi metodami aglomeracyjnymi.

Badania zostaną oparte na danych symulacyjnych, co ułatwi ocenę własności zastosowanych metodologii i pozwoli na wyprowadzenie ogólniejszych wniosków dotyczących wziętych pod uwagę klas problemów klasyfikacyjnych.

Wnioski z badań powinny pomóc w lepszym zrozumieniu informacji zawartych w wielowymiarowych zbiorach danych i w skuteczniejszym stosowaniu tej wiedzy w praktyce.

Literatura:

  1. Deboeck G., Kohonen T. (1998). Visual Explorations in Finance, with Self-Organizing Maps. Springer. Finance.
  2. Hand D.J. (1981). Discrimination and Classification, John Wiley & Sons Ltd.
  3. Kohonen T. (1997). Self-Organizing Maps. Springer – Verlag. Berlin-Heidelberg.
  4. Lampinen J., Oja E. (1992). Clustering properties of hierarchical self-organizing maps. J. Math Imag. Vis. Vol. 2, No. 2-3.
  5. Migdał Najman K., Najman K. (2001). Zastosowanie sieci neuronowej typu SOM do wyboru najatrakcyjniejszych spółek na WGPW. Prace Naukowe Akademii Ekonomicznej we Wrocławiu nr 952.
  6. Migdał Najman K., Najman K. (2003). Próba zastosowania sieci neuronowej typu SOM w badaniu przestrzennego zróżnicowania powiatów w Polsce. Wiadomości Statystyczne 4/03.
  7. Mitra S., Acharya T. (2003). Data mining. Multimedia, Soft Computing and Bioinformatics. A John Wiley & Sons, Inc. Publication.
  8. Rencher A.C. (2002). Methods of Multivariate Analysis. Wiley-Interscience. A John Wiley & Sons, Inc. Publication.
  9. Späth H. (1982). Cluster Analysis Algorithms for data reduction and classification of objects. John Wiley & Sons, Inc.
  10. Vesanto J. (1997). Data mining techniques based on the Self-Organizing Maps. Helsinki University of Technology. Department of Engineering Physics and Mathematics. ESPOO. Finland.
  11. Vesanto J., Alhoniemi E. (2000). Clustering of the Self-Organizing Map. IEEE Transactions on Neural Networks. Vol. 11, No. 3.

 

Legal notice
  • Legal notice:
 

Presentation: Oral at XVI KONFERENCJA NAUKOWA SEKCJI KLASYFIKACJI I ANALIZY DANYCH PTS, Sympozjum A, by Kamila Najman
See On-line Journal of XVI KONFERENCJA NAUKOWA SEKCJI KLASYFIKACJI I ANALIZY DANYCH PTS

Submitted: 2007-04-11 15:01
Revised:   2009-06-07 00:44