Next Generation Sequencing: Big Data meets HPC

Zunehmend werden in den Lebenswissenschaften Hoch-Durchsatz DNA (NGS) Sequenzierungstechnologien eingesetzt. Das enorme Wachstum der verfügbaren NGS Datensätze ist eine Herausforderung für die effiziente Analyse der produzierten DNA Fragmente. Das Ziel dieses Projektes ist der Entwurf von "Big Data" Algorithmen und deren effiziente Implementierung auf modernen HPC Systemen. Insbesondere werden wir folgende zwei Anwendungen/Algorithmen untersuchen:
(i) Detektion von cross-species Kontamination in NGS Datensätzen mit einem neuartigen k-mer-counting-Algorithmus auf einem Multi-GPU System
(ii) Entwurf von Big Data Algorithmen für Clustering und Suche in großen Sequenzdatensätzen auf einem Spark-Cluster