Górnośląskie Centrum Obliczeń Naukowych i Inżynierskich

Projektowanie klasyfikatorów zazwyczaj poprzedzane jest zastosowaniem grupowania danych, czyli tzw. 'klasyfikacją bez nauczyciela'. Pozwala to na poznanie struktury danych, co w szczególności dla klasyfikatorów o dużej interpretowalności dla eksperta ludzkiego jest etapem podatkowym. 

Etap ten pozwala na ustalenie liczby stosowanych przez klasyfikator reguł 'jeżeli-to' oraz, dla klasyfikatorów rozmytych, postać i parametry funkcji przynależności przesłanek tych reguł. Metoda rozmytych c-średnich (ang. fuzzy c-means) jest najpopularniejszą ze stosowanych. Posiada ona jednak istotną wadę polegającą na małej odporności na występowanie danych obcych oraz jest nieskuteczności dla grup danych o niegaussowskim rozkładzie. Niestety w większości baz medycznych występują zarówno dane obce jak i grupy danych o niegaussowskim charakterze. Powodem występowania danych obcych mogą być, np. grube błędy pomiarowe oraz występowanie zakłóceń o impulsowych charakterze. Stąd w praktyce występuje konieczność stosowania tzw. odpornych metod grupowania. Metody takie powinny działać prawidłowo zarówno przy braku danych obcych i gaussowskim charakterze grup danych jak i przy braku spełnienia tych wymogów. Miarą odporności metody jest procent danych obcych, który powoduje katastroficzne załamanie się działania metody grupowania. Metody znane w literaturze przedmiotu zazwyczaj stosują specjalnie zmienione funkcje strat - np. zamiast funkcji kwadratowej funkcję zaproponowaną przez Hubera. Inna możliwa do zastosowania metoda uzyskania odporności polega na sortowaniu danych względem ich odległości od prototypu grupy i zmniejszaniu wpływu na wyniki grupowania tak wykrytych danych obcych.

W literaturze dotyczącej odpornego grupowania danych nie jest dotąd znane podejście, które jednocześnie stosuje zmodyfikowane funkcje strat oraz jednocześnie operację sortowania. Dlatego celem ekspertyzy jest numeryczne potwierdzenie możliwości uzyskania szczególnej odporności grupowania powyższą metodą. Interesujące jest uzyskanie braku katastroficznego załamania jakości uzyskanego grupowania dla połowy danych będących danymi obcymi. Badania są przeprowadzone w porównaniu do uznanych w literaturze metod grupowania danych, ze szczególnym uwzględnieniem metod odpornych, takich jak: fuzzy c-means, possibilistic clustering, fuzzy noise clustering, Lp-norm clustering (0 <p<1), L1-norm clustering, fuzzy clustering with polynomial fuzzifier i ε-insensitive fuzzy c-means. Eksperymenty są przeprowadzone na baz o zmiennej licznie danych obcych oraz dla danych zawierających nakładające się niegaussowskie grupy danych o dużych zakłóceniach. Wyniki uzyskanych analiz mają być opublikowane w czasopiśmie JCR o współczynniku oddziaływania (IF) większym niż 1.5.