Górnośląskie Centrum Obliczeń Naukowych i Inżynierskich

kierownik pracowni:

dr hab. inż. Sebastian Deorowicz

 

Pracownia komputerów dużej mocy z dużą ilością pamięci współdzielonej zajmuje się badaniami interdyscyplinarnymi, w których rozwiązywane problemy wymagają długiego czasu obliczeń a przetwarzane dane mają rozmiary liczone w terabajtach. Aktualnie prowadzone badania dotyczyły i dotyczą poniższych zagadnień.

 

Kompresja danych z sekwencjonowania genomów

 

Pozyskanie informacji genomowej jest procesem bardzo trudnym. Pierwszym etapem są tu eksperymenty laboratoryjne, w wyniku których otrzymuje się pliki rozmiarów setek GB (w przypadku sekwencjonowania genomu ludzkiego). Przechowywanie danych takich rozmiarów jest kosztowne. Również samo ich przesyłanie wymaga sporej ilości czasu. W związku z tym opracowuje się specjalizowane algorytmy kompresji, które pozwalają na wielokrotne zmniejszenie rozmiaru tych danych. Prowadzone badania dotyczą właśnie opracowywania takich algorytmów.

 

Analizy danych z sekwencjonowania genomów

 

Surowe dane pochodzące z sekwencjonowania przetwarza się na różne sposoby. W pracowni opracowano m.in. skompresowaną indeksową strukturę danych, która pozwala na wykonywanie różnorodnych zapytań. Dzięki temu możliwe jest opracowywanie algorytmów klasyfikacji, klasteryzacji czy korekcji tych danych.

Jednym z podstawowych problemów, które należy rozwiązać w dużej liczbie analiz danych genomowych jest szybkie zliczenie występowania podsłów w całej kolekcji danych z sekwencjonowania. W tym celu w pracowni opracowano algorytm rozwiązujący ten problem.

Wykorzystując powyższy algorytm opracowano także metodę klasyfikacji danych pochodzących z sekwencjowania w eksperymentach metagenomowych. W takich badaniach przeprowadza się analizę próbki pobranej ze środowiska, aby określić jakie gatunki w niej się znajdują.

W ramach prac pracowni zrealizowano także badania dotyczące oceny i integracji rozwiązań do adnotacji funkcjonalnej nowo zsekwencjonowanych organizmów. Jako przypadek testowy wybrano genom ziemniaka.

 

Kompresja danych kolekcji genomowych

 

W wyniki obróbki danych z sekwencjonowania otrzymuje się informacje o genomie danego osobnika. Kiedy takie informacje z różnych eksperymentów zostaną zebrane mamy do czynienia z kolekcją sekwencji genomowych osobników tego samego gatunku. Takie informacje są bardzo cenne, ponieważ pozwalają lepiej poznać różnice międzyosobnicze, co potencjalnie może prowadzić do uzyskania większej wiedzy dotyczącej chorób o podłożu genetycznym. Przechowywanie i analiza takich danych jest jednak trudna z uwagi na ich ogromne rozmiary. W pracowni opracowano więc specjalizowane algorytmy kompresji kolekcji sekwencji genomowych a także skompresowaną indeksową strukturę danych, która umożliwia szybkie przeszukiwanie tej kolekcji.

 

Dopasowywanie i przeszukiwanie sekwencji białkowych

 

Rozwój technik sekwencjonowania nowej generacji spowodował lawinowy wzrost liczby znanych sekwencji białkowych. Sekwencje te grupowane są rodziny liczące nawet setki tysięcy elementów. Kluczowym zadaniem w przypadku analiz takich rodzin jest przeprowadzenie dopasowywania tych sekwencji. Zadanie to jest bardzo wymagające obliczeniowo i pamięciowo. W ramach prac pracowni opracowano algorytm służący do wyznaczania takich dopasowań.

W ramach zrealizowanych prac opracowano także algorytm usprawniający przeszukiwanie baz danych sekwencji białkowych pod kątem zadanej strukturze drugorzędowej białka.

 

Inne problemy

 

Kolejnymi problemami wymagającymi dużej mocy obliczeniowej, którymi zajmowano się w pracowni są problemy optymalizacji kombinatorycznej. W szczególności skupiono się na problemie trasowania pojazdów z oknami czasowymi. Opracowano algorytm memetyczny służący do rozwiązywania tego problemu.

W pracowni badano także nowe metody kompresji obrazów. W szczególności skupiono się na analizie wpływu przestrzeni barw na uzyskiwane współczynniki kompresji. W efekcie opracowano nowy bezstratny algorytm kompresji obrazów.