Search for content and authors |
Analiza porównawcza struktur hierarchicznych skupień uzyskanych w oparciu o hybrydowe metody grupowania |
Kamila Najman |
Uniwersytet Gdański Wydział Zarządzania (WZR), Armii Krajowej 101, Sopot 81-824, Poland |
Abstract |
Jednym z celów analizy wielowymiarowych zbiorów danych jest wyróżnienie homogenicznych grup obiektów. Grupy te skupiają obiekty, które z punktu widzenia badanych cech są do siebie podobne. Wyróżnienie takich grup stanowi istotę analizy skupień i jest zagadnieniem dobrze znanym. Innym aspektem analizy danych wielowymiarowych jest ustalenie hierarchii obiektów. Hierarchia ta wskazuje, które obiekty i w jaki sposób są do siebie podobne. W badaniach empirycznych pojawia się coraz większa potrzeba połączenia obu tych aspektów badań zbiorów wielowymiarowych. Gwałtownie rozwijająca się informatyzacja życia ekonomicznego powoduje między innymi znaczny rozwój wielkości baz danych. Nierzadko bazy te zawierają dziesiątki tysięcy obiektów charakteryzowanych kilkudziesięcioma zmiennymi. Jedną z konsekwencji analizy takich zbiorów danych jest to, że ustalenie hierarchii obiektów staje się trudne do przeprowadzenia a uzyskana struktura jest często tak nieczytelna, że niemożliwa do praktycznego zastosowania. Jednocześnie badane zbiory danych charakteryzują się dużą liczbą skupień przekraczającą czasami liczbę 50. Obie powyższe konsekwencje ilościowych zmian w badanych zbiorach danych powodują, że konsumenci wyników badań statystycznych są dziś zainteresowani nie tylko strukturą hierarchiczną obiektów i wyodrębnieniem skupień, ale także strukturą hierarchiczną samych skupień. Celem prezentowanych badań jest prezentacja i opis własności dwustopniowych metod grupowania obiektów w rozpoznawaniu hierarchicznej struktury skupień. Do wyodrębnienia skupień zostaną zastosowane metody optymalizacyjne: k-średnich, w-średnich k-medoids i sieć neuronowa typu SOM. Hierarchiczna struktura skupień wyodrębnionych przy pomocy powyższych metod będzie następnie analizowana klasycznymi metodami aglomeracyjnymi. Badania zostaną oparte na danych symulacyjnych, co ułatwi ocenę własności zastosowanych metodologii i pozwoli na wyprowadzenie ogólniejszych wniosków dotyczących wziętych pod uwagę klas problemów klasyfikacyjnych. Wnioski z badań powinny pomóc w lepszym zrozumieniu informacji zawartych w wielowymiarowych zbiorach danych i w skuteczniejszym stosowaniu tej wiedzy w praktyce. Literatura:
|
Legal notice |
|
Presentation: Oral at XVI KONFERENCJA NAUKOWA SEKCJI KLASYFIKACJI I ANALIZY DANYCH PTS, Sympozjum A, by Kamila NajmanSee On-line Journal of XVI KONFERENCJA NAUKOWA SEKCJI KLASYFIKACJI I ANALIZY DANYCH PTS Submitted: 2007-04-11 15:01 Revised: 2009-06-07 00:44 |