Górnośląskie Centrum Obliczeń Naukowych i Inżynierskich

Sekwencjonowanie genomów ma coraz większy wpływ na współczesną medycynę. W ostatnich latach pojawiły się projekty takie jak Personal Genome Project czy Million Veteran Project zakładające zsekwencjonowanie odpowiednio 100 tys. oraz 1 miliona genomów ludzkich. Rozmiary danych z takiego sekwencjonowania będą liczone w setkach petabajtów. Rodzi to duże problemy związane nie tylko z analizą takich danych, ale nawet z ich przechowywaniem.

Koszt rocznego przechowywania i pobierania do analiz danych z sekwencjonowania pojedynczego genomu ludzkiego liczony jest w setkach dolarów. Obecny koszt sekwencjonowania jednego genomu ludzkiego wynosi ok. 4 tys. dolarów. Koszt sekwencjonowania systematycznie maleje, co powoduje, że przechowywanie i przesyłanie wyników wnosi coraz większy udział procentowy w przetwarzanie tych danych.

Z powyższych powodów w ostatnich latach pojawiło się wiele specjalizowanych algorytmów kompresji danych z sekwencjonowania genomów. Algorytmy te oferują współczynniki kompresji wyraźnie lepsze niż oferowane przez metody uniwersalne takie jak np. gzip. Niestety wiele z tych algorytmów posiada istotne wady, z których najważniejsze to: (i) skupienie głównie na współczynniku kompresji przez co szybkość kompresji i dekompresji jest niska; (ii) dostępność tylko jako zewnętrzne narzędzia co wyklucza wbudowanie obsługi skompresowanych plików w istniejące narzędzia analiz danych genomowych; (iii) brak wsparcia dla niektórych typów plików FASTQ, np. zapisujących dane w przestrzeni koloru; (iv) niestabilność eksperymentalnych wersji. Skupienie uwagi na współczynniku kompresji czasami może być usprawiedliwione, zwłaszcza w sytuacji, w której mamy do czynienia z archiwizacją. W typowych sytuacjach dane z sekwencjonowania są jednak analizowane przez różnorodne narzędzie i wolna dekompresja powoduje znaczące spowolnienie całego procesu tych analiz. Z tego też powodu w praktyce bardzo często do kompresji stosowany jest uniwersalny program gzip.

Ograniczenia kompresora gzip (m.in. wolna kompresja i niskie współczynniki kompresji) są jednak coraz bardziej uciążliwe. Rozważane przez nas podejście zakłada stworzenie stabilnego, szybkiego, uniwersalnego i oferującego dobre współczynniki kompresji narzędzia. Jego współczynniki kompresji są znacznie lepsze niż narzędzi uniwersalnych (gzip/bzip2) i tylko nieznacznie gorsze niż kompresorów specjalizowanych. Wstępne eksperymenty pokazują, że szybkości kompresji i dekompresji są na poziomie nieosiągalnym dla konkurencyjnych narzędzi. Ponadto tworzony kompresor (DSRC 2) jest dostępny zarówno jako aplikacja zewnętrzna, jak i jako biblioteki programistyczne dla języków C++ i Python, co umożliwia bezpośrednią integrację z wieloma narzędziami analizy danych genomowych.


Szczegóły opracowanego algorytmu oraz wyniki eksperymentalnych testów porównawczych mają być opublikowane w czasopiśmie JCR o współczynniku oddziaływania (IF) większym niż 4.0.