Górnośląskie Centrum Obliczeń Naukowych i Inżynierskich

Sekwencjonowanie genomów ma coraz większy wpływ na współczesną medycynę. W ostatnich latach pojawiły się projekty takie jak Personal Genome Project czy Million Veteran Project zakładające zsekwencjonowanie odpowiednio 100 tys. oraz 1 miliona genomów ludzkich. Rozmiary danych z takiego sekwencjonowania będą liczone w setkach petabajtów. Rodzi to duże problemy związane nie tylko z analizą takich danych, ale nawet z ich przechowywaniem.

Koszt rocznego przechowywania i pobierania do analiz danych z sekwencjonowania pojedynczego genomu ludzkiego liczony jest w setkach dolarów. Obecny koszt sekwencjonowania jednego genomu ludzkiego wynosi ok. 4 tys. dolarów. Koszt sekwencjonowania systematycznie maleje, co powoduje, że przechowywanie i przesyłanie wyników wnosi coraz większy udział procentowy w przetwarzanie tych danych. Wyzwaniem staje się nawet przechowywanie i przesyłanie kolekcji kompletnych sekwencji genomowych wielu osobników tego samego gatunku.

Z powyższych powodów w ostatnich latach pojawiło się wiele specjalizowanych algorytmów kompresji kolekcji sekwencji genomowych. W niniejszej pracy skupimy się na wykorzystaniu wiedzy o tym, że genomy osobników poszczególnych gatunków są do siebie bardzo podobne, wobec czego kompresując genom danego osobnika można wykorzystać wiedzę nie tylko o genomie referencyjnym ale także o już przetworzonych genomach innych osobników. Podejście to pozwala na wielokrotną poprawę uzyskiwanego współczynnika kompresji w stosunku do algorytmów opierających się tylko na jednym genomie referencyjnym. Uzyskane współczynniki kompresji dla kolekcji 2184 genomów ludzkich to ok. 10000. Ponadto opracowany algorytm cechuje się dużą szybkością zarówno kompresji jak i dekompresji, która często jest limitowana przez przepustowość dysków twardych.

 

Opracowany algorytm pozwala także na ekstrakcję dowolnej wybranej sekwencji z kolekcji bez konieczności pełnej dekompresji całej kolekcji. Możliwe jest także ustalanie kompromisu pomiędzy współczynnikiem kompresji a szybkością kompresji/dekompresji oraz czasem dostępu do pojedynczej sekwencji.

 

autorzy:

Sebastian deorowicz, Agnieszka Danek, Marcin Niemiec

 

Szczegóły opracowanego algorytmu oraz wyniki eksperymentalnych testów porównawczych opublikowano:

 

Deorowicz, S., Danek, A., & Niemiec, M. (2015). GDC 2: Compression of large collections of genomes. Scientific reports, 5.