Search for content and authors |
Symulacyjna analiza wpływu wyboru metody podziału obiektów na jakość uzyskanej klasyfikacji w algorytmach k-średnich |
Krzysztof Najman |
Uniwersytet Gdański Wydział Zarządzania (WZR), Armii Krajowej 101, Sopot 81-824, Poland |
Abstract |
Zasadniczym celem analizy skupień jest taki podział obiektów, który zapewnia maksymalną homogeniczność obiektów w wyróżnionych skupieniach i maksymalną heterogeniczność między skupieniami. Metody realizujące tą strategię nazywamy ogólnie metodami podziałowymi. Jedną z klasycznych i najczęściej stosowanych metod podziałowych jest metoda k-średnich. Jakość klasyfikacji obiektów uzyskana dzięki metodzie k-średnich zależy od wielu czynników. Do ważniejszych z nich należy zaliczyć: 1) wstępny (prototypowy) podział obiektów na skupienia, 2) kolejność obiektów w zbiorze danych, 3) metodę przenoszenia obiektów między skupieniami a także 4) przyjęte kryterium optymalności podziału obiektów. Każdy z wymienionych czynników wskazuje na problem z podziałem zbioru obiektów i w ramach każdego z nich znane jest kilka rozwiązań tego problemu. Z tego powodu nie istnieje jedna metoda k-średnich. Nazwa ta wskazuje raczej na pewien sposób postępowania prowadzący do podziału obiektów niż konkretną jego realizację. Niestety w praktyce przyjęło się rozumienie tej metody jedynie dla algorytmu MacQueen’a, który jest przecież tylko jedną z możliwych realizacji metody k-średnich. Wyrazem tego stanu jest fakt, że w kluczowych pakietach statystycznych znajduje się jedynie ten algorytm, co wydaje się zbytnim uproszczeniem. Celem prezentowanych badań jest przegląd i krytyczna ocena różnych implementacji algorytmu k-średnich, uwzględniających powyższe cztery kluczowe czynniki wpływające na jakość uzyskanego grupowania. Analiza będzie oparta na danych symulacyjnych i empirycznych o znanej strukturze grupowej. Uzyskane struktury grupowe będą oceniane wskaźnikami jakości grupowania: Silhouette, Davies’a-Bouldin’a, Calinski’ego-Harabasza i Hubert’a-Levin’a a także porównywane ze wzorcem w oparciu o indeksy Rand’a, Jaccard’a i Fowkles’a-Mallows’a. Uzyskane wyniki powinny pomóc w lepszym zrozumieniu i właściwym stosowaniu algorytmów k-średnich. Literatura:
|
Legal notice |
|
Presentation: Oral at XVI KONFERENCJA NAUKOWA SEKCJI KLASYFIKACJI I ANALIZY DANYCH PTS, Sympozjum A, by Krzysztof NajmanSee On-line Journal of XVI KONFERENCJA NAUKOWA SEKCJI KLASYFIKACJI I ANALIZY DANYCH PTS Submitted: 2007-04-11 14:58 Revised: 2009-06-07 00:44 |