sparse2big

From sparse to big data: Imputation and Fusion for Massive Sparse Data

Große Datensätze mit vielen Variablen enthalten meist unerkannte, fehlende oder verrauschte Datenpunkte. Der richtige Umgang mit diesen Datenpunkten ist für jeden späteren Schritt der Analyse entscheidend. In verschiedenen Bereichen wurden dazu Lösungsansätze entwickelt, von der Imputation, d.h. der Vervollständigung der Datenmatrix, bis hin zur Modellierung von Beobachtungsprozessen oder dem Einsatz von downstream Analysen, die gegen Störfaktoren robust sind. Nur wenn der fehlerhaften Natur dieser Daten Rechnung getragen wird, und wie in der Imputation viele korrumpierte Beobachtungen desselben Effekts zusammengefasst werden, können zuverlässige Schlüsse gezogen werden. Daher ist die Entwicklung, Evaluation und das Bereitstellen von Datenimputations und integrationsmethoden von entscheidender Bedeutung für viele Forschungsbereiche, mit potentiellen Anwendungen von Patientendaten zu Remote Sensing in der Geographie bis hin zu Rauschen in der Bildgebung.

Ziel von sparse2big ist es, Forscher aus acht verschiedenen Helmholtz-Zentren zusammenzubringen, um solche Methoden und Techniken zu entwickeln und zu evaluieren. Um eine detaillierte Analyse zu ermöglichen, um internationale Sichtbarkeit zu erlangen und um die Relevanz einer solchen methodischen Forschung zu zeigen, konzentrieren wir uns zunächst auf einen Use Case, nämlich Einzelzellgenomik, der inhaltlich für alle Gesundheitszentren strategisch relevant ist. Diese Techniken tragen derzeit zu einer Revolution der biologischen und medizinischen Forschung bei, indem sie die Vorteile der modernen Bulk-Sequenzierung mit Analysen von einzelnen Zellen kombinieren und damit ein molekulares Mikroskop darstellen. Die technologischen Fortschritte sind enorm und ermöglichen die Profilierung von Genomen, Transkriptomen und Epigenomen in einer zuvor nicht möglichen Auflösung und einer beträchtlichen Anzahl von Datenpunkten, jedoch bei deutlich verringerter Qualität und einer hohen Anzahl fehlender Werte. Wir werden darauf aufbauend weitere kleine, perspektivische Projekte verfolgen beispielsweise in Remote Sensing, und haben einen klaren Plan für die Translation der Ideen zu anderen Gebieten in Helmholtz und darüberhinaus.

Milestone WP2-2:

Als Teil des zweiten "Meilensteins" wird die Nachwuchsgruppe "Bioinformatics & Transcriptomics" evaluieren, ob unterschiedliche Imputationsmethoden helfen verrauschte "single cell RNA sequencing" Daten wiederherzustellen. In einem nachsten Schritt können auf den imputierten Daten biologische Netwerke rekonstruiert werden, um relevante Gene sowie "long non-coding RNA's" zu identifizieren.