Bioinformatische Werkzeuge zur Untersuchung der biologischen Funktion repetitiver DNA in Eukaryoten

Das menschliche Genom enthält ungefähr 50% repetitive DNA Sequenzen. Neuere Forschungsresultate zeigen, dass diese eine aktivere Rolle in der Genomregulation spielen als bisher erwartet. Allerdings ist das Wissen über konkrete Regulationsmechanismen noch sehr begrenzt. Ein wesentlicher Grund hierfür ist die Schwierigkeit kurze DNA Fragmente (sog. Reads) in repetitiven Regionen eines Referenzgenoms exakt zu alignen. Deshalb werden derzeit in mit Hoch-Durchsatz DNA Sequenzierungstechnologien (NGS) produzierten Datensätze entsprechende Reads (sog. Multi-reads) zumeist nicht berücksichtigt. Das Ziel dieses Projektes ist der Entwurf, die Implementierung und die Evaluierung einer ChIP-seq Analyse Pipeline, die einen neuartigen parallelisierten Algorithmus zum Alignment von Multi-Reads mit hoher Sensitivität und hoher Effizienz enthält. Diese neue Pipeline soll dann zur Analyse von neuen ChIP-seq Datensätzen verwenden werden, um Genomregulation in repetitiven Regionen genauer untersuchen zu können.