ISSN: 2153-0637
Xiong Momiao
Sequenzierungstechnologien der nächsten Generation werden beispiellos umfangreiche (Tausende oder sogar Zehntausende von Individuen) und hochdimensionale (bis zu Hunderten von Millionen) Daten zu genomischen und epigenomischen Variationen generieren. Eine grundlegende Frage ist, wie sich genomische und epigenomische Informationen von klinischer Bedeutung effizient extrahieren lassen. Das traditionelle Paradigma zur Ermittlung klinisch valider Varianten besteht darin, die Assoziation der Varianten zu testen. Signifikant assoziierte genetische Varianten können jedoch für die Diagnose und Prognose von Krankheiten nützlich sein oder auch nicht. Eine Alternative zu Assoziationsstudien zur Ermittlung genetischer Varianten mit prädiktivem Nutzen besteht darin, systematisch nach Varianten zu suchen, die ausreichend Informationen für eine Phänotypvorhersage enthalten. Um dies zu erreichen, führen wir Konzepte einer ausreichenden Dimensionsreduktion ein, die die ursprünglichen hochdimensionalen Daten in einen sehr niedrigdimensionalen Raum projizieren und dabei alle Informationen zu Reaktionsphänotypen erhalten. Anschließend formulieren wir das Problem der Entdeckung klinisch signifikanter genetischer und epigenetischer Varianten in ein spärliches SDR-Problem und entwickeln Algorithmen, die signifikante genetische Varianten aus bis zu zehn Millionen oder sogar zehn Millionen Prädiktoren auswählen können, indem wir das SDR für das gesamte Genom in eine Reihe von Sub-SDR-Problemen unterteilen, die für genomische Regionen definiert sind. Das spärliche SDR wird wiederum als spärliches Optimalbewertungsproblem formuliert. Um die Berechnung zu beschleunigen, wenden wir die Methode der alternierenden Richtung für Multiplikatoren an, um das spärliche Optimalbewertungsproblem zu lösen, das leicht parallel implementiert werden kann. Um seine Anwendung zu veranschaulichen, wird die vorgeschlagene Methode auf den TCGA-Gesamtkrebsdatensatz angewendet.