O odpornych rozmytych c-modelach regresyjnych

Metoda rozmytych c-modeli regresyjnych jest uogólnieniem popularnej metody grupowania danych, tj. rozmytej metody c-średnich. W tym przypadku prototypy grup są zastępowane hiperpłaszczyznami. Metoda to ma wiele interesujących zastosowań praktycznych, a w szczególności jest przydatna do komputerowego wspomagania diagnostyki medycznej. Przykładowo, jest stosowana do wyodrębniania reguł 'jeżeli-to' na podstawie zbioru uczącego, prowadząc do powstania zbioru reguł dla systemu rozmytego Takagi-Sugeno-Kanga.

System ten można interpretować jako tzw. konsylium ekspertów (reguł o konkluzji będącej zbiorem rozmytym, którego położenie jest liniową kombinacją wartości wejściowych). Macierz podziału informuje o poziomie kompetencji eksperta dla danego wejścia systemu. Innym ważnym zastosowaniem jest analiza niestacjonarnych sygnałów biomedycznych, gdzie fragmenty sygnałów opisywane są modelami liniowymi, a powstała macierz podziału powoduje, że uzyskujemy model nieliniowy, który z łatwością może modelować dowolny skomplikowany sygnał biomedyczny.

Niestety metoda rozmytych c-modeli regresyjnych jest bardzo czuła na występowanie zakłóceń oraz złą inicjalizację. Jak wiadomo większość danych biomedycznych i sygnałów biomedycznych zawiera dane obce i wysoki poziom zakłóceń. Stąd w praktyce występuje konieczność stosowania tzw. odpornych metod grupowania. Metody takie powinny działać prawidłowo zarówno przy braku zakłóceń (danych obcych), jak i przy ekstremalnie niekorzystnym stosunku sygnału do szumu (dużym procentowym udziale danych obcych).

W literaturze dotyczącej odpornego grupowania z zastosowaniem prototypów będących hiperpłaszczyznami nie jest dotąd znane podejście, które jednocześnie stosuje huberowskie M-estymatory i jako operator agregacji uogólnione ważone uśrednianie z operacją sortowania. Dlatego celem ekspertyzy jest numeryczne potwierdzenie możliwości uzyskania prawidłowej analizy ekstremalnie zakłóconych sygnałów biomedycznych za pomocą rozmytych c-modeli regresyjnych. W szczególności interesujące jest uzyskanie braku katastroficznego załamania metody przy analizie sygnałów biomedycznych, dla których energia zakłóceń przewyższa energię składników użytecznych. Badania są przeprowadzone w porównaniu do uznanych w literaturze rozmytych metod grupowania danych oraz metod stosujących odporne statystyki, takich jak: rozmytej metodzie przełączanych modeli regresyjnych, ε-nieczułej rozmytej metodzie c-modeli regresyjnych, metodzie opartej na odległości Cooka, M-estymatorze z funkcją Tukeya i MM-estymatorze) z funkcją Tukeya (95% efektywność i punkt załamania 50%). Eksperymenty są przeprowadzone na sygnałach biomedycznych o zmiennym poziomie zakłóceń i o zmiennej licznie danych obcych. W badaniach numerycznych stosowane są zarówno zakłócenia gaussowskie jak i impulsowe modelowane za pomocą sekwencji Bernoulliego-Gaussa. Algorytm grupowania stosuje do inicjalizacji obliczeń losową wstępną macierz podziału. Dlatego metody znane z literatury i odporna rozmyta metoda c-modeli regresyjnych są przebadane pod kątem czułości na złą losową inicjalizację. Przebadany w eksperymentach numerycznych jest także wpływ różnych funkcji strat na odporność testowanych metod. Wyniki uzyskanych analiz są opublikowane w czasopiśmie JCR o współczynniku oddziaływania (IF) większym niż 1.8.

FaLang translation system by Faboba

Górnośląskie Centrum Obliczeń Naukowych i Inżynierskich

O odpornych rozmytych c-modelach regresyjnych