TCGA Data Mining

Dieses Projekt zielt auf die Entwicklung neuer Verfahren zur Datenanalyse, mit denen molekulare Veränderungen zur Krebsdiagnose identifiziert werden können. Es basiert auf der Untersuchung großer Krebsdatensätze mit Hilfe der Kombination von Datenanalyseverfahren und HPC-Techniken.

Die Datenanalyse wird in mehrere Phasen unterteilt. Initial werden einzelne oder Mengen von Genen als Kandidaten für die weitere Untersuchung bestimmt. Es werden hierfür große Menge von Cox Regressionsmodellen erzeugt; in einem ersten Schritt basierend auf einzelnen Genen, dann über die Verknüpfung von zwei Genen bis zur Bildung größerer Modelle. In der zweiten Phase werden Methoden aus dem Bereich des maschinellen Lernens angewendet, um semi-automatisch biologischen Datenbanken abzufragen und Erklärungen und Hypothesen über die Bedeutung der Genkombinationen liefern zu können.