Search for content and authors
 

Klasyfikacja danych rolniczych w oparciu o metody analizy skupień stosowane w genetyce

Stanisław K. Jabłonowski 

Szkoła Główna Gospodarstwa Wiejskiego (SGGW), Nowoursynowska 166, Warszawa 02-787, Poland

Abstract

Metody klasyfikacji danych, taksonometria znajdują się w polu stałego zainteresowania badaczy. Proponuje się nowe podejścia, nowe algorytmy różnych typow klasyfikacji. Dotyczy to dużych zbiorów danych opisujących obiekty o dużej liczbie cech.

Takie dane występują np. w genetyce. Badania tych danych mogą mieć na celu przeprowadzenie analiz podobieństwa genetycznego różnych organizmów żywych, ich populacji itp. Metody stosowane w genetyce, mimo że specyficznie ukierunkowane są chyba jednak na tyle ogólne, że mogą być przeniesione też do innych dziedzin i do rozwiązywania innych problemów. Obiekty wieloatrybutowe związane z rolnictwem, takie jak np.gospodarstwa rolne, czy gminy wiejskie są klasyfikowane różnymi sposobami. Celem niniejszego opracowania jest sprawdzenie, czy pewnych metod taksonomicznych stosowanych w genetyce nie można przenieść do tak odległych dla genetyki dziedzin jak badania ekonomiczno-rolnicze. Danymi źródłowymi do stosowania tych metod, służących w efekcie do oceny podobieństw genetycznych organizmów żywych i populacji tych organizmów, mogą być wyniki reakcji łańcuchowej polimerazy, PCR (Polymerase Chain Reaction). Technika PCR umożliwia namnażanie fragmentów DNA. Elektroforegramy, które obrazują wyniki doświadczeń zawierają ścieżki, złożone z prążków sygnalizujących istnienie, często nie znanego, ale określonego fragmentu łańcucha DNA. Każda taka ścieżka odpowiada konkretnym próbkom materiału genetycznego, pochodzącym z konkretnego organizmu żywego. Prążki na tych ścieżkach można opisać liczbami określającymi ich położenie w ramach ścieżki. Posiadając takie zestawy liczb można poddać je czysto statystycznej obróbce, mającej na celu obliczanie odległości między ścieżkami, a zatem i badanymi organizmami żywymi. Otrzymane wyniki świadczą o mniejszym lub większym zróżnicowaniu genetycznym populacji, można wyróżniać skupienia. Występuje tu jednak szereg zagadnień logicznych, jak np. jak ustalać relację identyczności między prążkami z różnych ścieżek, gdyż często ten sam fragment DNA jest reprezentowany przez różne, choć bliskie sobie liczby. Zanim zatem będzie się obliczać odległości genetyczne między ścieżkami, czyli organizmami żywymi, trzeba prążki podzielić na grupy o dużym wewnętrznym podobieństwie. Zagadnienia te można różnie rozwiązywać, ale ostateczne decyzje są tylko w przybliżeniu ścisłe. Po podjęciu takich decyzji można stosować dalszą obróbkę statystyczną.

Wydaje się, że dane o pewnych obiektach związanych z rolnictwem, obiektach wielocechowych, można potraktować podobnie jak dane pochodzące z analizy PCR i podobnie je przetwarzać jak tamte. Każde np. badane gospodarstwo z pewnej grupy można przedstawić jako taką ścieżkę, czyli „zestaw prążków”. Wydaje się, że ostateczne zestawy liczbowe można przetwarzać statystycznie podobnie jak dane genetyczne.

W niniejszej pracy jest opisana metoda RAPD, czyli metoda amplifikacji losowej, stanowiąca pewną odmianę reakcji PCR, sposób obróbki statystycznej danych otrzymanych w ten sposób, a następnie próba przeniesienia takich sposobów obliczeniowych do danych rolniczych. Dane te opisują obiekty takie jak gospodarstwa rolne. Atrybutami obiektów są pewne cechy ekonomiczne.

 

Legal notice
  • Legal notice:
 

Related papers

Presentation: Poster at XVI KONFERENCJA NAUKOWA SEKCJI KLASYFIKACJI I ANALIZY DANYCH PTS, Sesja plakatowa, by Stanisław K. Jabłonowski
See On-line Journal of XVI KONFERENCJA NAUKOWA SEKCJI KLASYFIKACJI I ANALIZY DANYCH PTS

Submitted: 2007-04-20 23:25
Revised:   2009-06-07 00:48