Zeitschrift für Proteomik und Bioinformatik

Zeitschrift für Proteomik und Bioinformatik
Offener Zugang

ISSN: 0974-276X

Abstrakt

Identifizierung differentieller Gensätze durch die lineare Kombination von Genen mit maximaler AUC

Zhanfeng Wang, Chen-An Tsai und Yuan-chin I Chang

Die Gensatzanreicherungsanalyse (GSEA) nutzt die Genexpressionsprofile funktionell verwandter Gensätze in den Kategorien der Gene Ontology (GO) oder zuvor definierten biologischen Klassen, um die Bedeutung von Gensätzen zu bewerten, die mit klinischen Ergebnissen oder Phänotypen verbunden sind. Sie ist die am häufigsten verwendete Methode zur Genanalyse. Aus Klassifizierungssicht wurde dieser Methode jedoch wenig Aufmerksamkeit gewidmet. In diesem Artikel identifizieren wir die unterschiedlichen Gensätze, die stark mit der Fähigkeit zur phänotypischen Klassenunterscheidung verbunden sind, indem wir Genexpressionsdaten zusammen mit biologischem Vorwissen verwenden. Wir schlagen zwei nichtparametrische Methoden zur Identifizierung unterschiedlicher Gensätze vor, die den Bereich unterhalb der ROC-Kurve (AUC) linearer Risikowerte von Gensätzen verwenden, die durch eine sparsame, schwellenwertunabhängige Genselektionsmethode innerhalb von Gensätzen erhalten werden. Die AUC-basierten Statistiken und die AUC-Werte, die aus der Kreuzvalidierung der linearen Risikowerte erhalten werden, werden berechnet und als Indizes zur Identifizierung unterschiedlicher Gensätze verwendet. Die Unterscheidungsfähigkeiten von Gensätzen werden zusammengefasst und Gensätze, die Unterscheidungsfähigkeiten besitzen, werden über einen vorgeschriebenen AUC-Statistikschwellenwert oder einen vordefinierten AUC-Schwellenwert zur Kreuzvalidierung ausgewählt. Darüber hinaus unterscheiden wir die Auswirkungen einzelner Gensätze in Bezug auf die Unterscheidungsfähigkeit anhand der absoluten Werte linearer Kombinationskoeffizienten. Die vorgeschlagenen Methoden ermöglichen es Forschern, angereicherte Gensätze mit hoher Unterscheidungsfähigkeit zu identifizieren und die Beiträge von Genen innerhalb des Gensatzes über die entsprechenden linearen Kombinationskoeffizienten zu ermitteln. Es werden sowohl numerische Studien mit synthetisierten Daten als auch eine Reihe von Genexpressionsdatensätzen durchgeführt, um die Leistung der vorgeschlagenen Methoden zu bewerten, und die Ergebnisse werden mit der Klassifizierungsmethode der Random Forests und anderen auf Hypothesentests basierenden Ansätzen verglichen. Die Ergebnisse zeigen, dass unsere vorgeschlagenen Methoden beim Erkennen von Anreicherungen zuverlässig und zufriedenstellend sind und eine aufschlussreiche Alternative zum Testen von Gensätzen bieten können. Das R-Skript und zusätzliche Informationen sind unter http://idv.sinica.edu.tw/ycchang/software.html verfügbar.

Haftungsausschluss: Diese Zusammenfassung wurde mithilfe von Tools der künstlichen Intelligenz übersetzt und wurde noch nicht überprüft oder verifiziert.
Top