Zeitschrift für Proteomik und Bioinformatik

Zeitschrift für Proteomik und Bioinformatik
Offener Zugang

ISSN: 0974-276X

Abstrakt

Robuste Erkennung von Ausreißerproben und Genen in Expressionsdatensätzen

Ahmad Barghash, Taner Arslan und Volkhard Helms

Expressions- und Methylierungsdatensätze sind Standardtechniken in der Genomik, und es werden immer mehr Computermethoden implementiert, um die Analyse der riesigen und komplexen Menge generierter Daten zu unterstützen. Solche generierten Datensätze enthalten oft einen beträchtlichen Anteil an Ausreißern, die bei der nachfolgenden Analyse zu irreführenden Ergebnissen führen. Hier präsentieren wir einen umfassenden Ansatz zur Erkennung von Proben- und Genausreißern in Expressions- oder Methylierungsdatensätzen. Die Kernalgorithmen haben die meisten Ausreißer erkannt, die von uns künstlich eingeführt wurden. Durch hierarchisches Clustering erkannte Probenausreißer werden durch den Silhouette-Koeffizienten validiert. Auf Genebene haben die Algorithmen GESD, Boxplot und MAD mit einem F-Maß von mindestens 83 % die simulierten Ausreißergene in nicht überschnittenen Verteilungen erkannt. Dieser kombinierte Ansatz hat viele Ausreißer in öffentlich verfügbaren Datensätzen der Portale TCGA und GEO erkannt. Häufig stellte sich heraus, dass einige funktionell ähnliche Gene, die als Ausreißer markiert waren, Ausreißerbeobachtungen in gemeinsamen Proben aufweisen. Da solche Fälle von besonderem Interesse sein können, werden sie für weitere Untersuchungen gekennzeichnet. Expressions- und DNA-Methylierungsdatensätze sollten vor jeder weiteren Analyse eindeutig auf Ausreißerpunkte überprüft werden. Wir schlagen vor, dass bereits 2 Ausreißerbeobachtungen ausreichen, um ein Ausreißergen zu kennzeichnen, da sie ausreichen, um eine perfekte Koexpression zu zerstören. Darüber hinaus können Ausreißer auch nützliche Informationen enthalten, und daher sollten funktionell ähnliche Ausreißer für weitere Untersuchungen gekennzeichnet werden. Die vorgestellte Software ist kostenlos über GitHub verfügbar.

Haftungsausschluss: Diese Zusammenfassung wurde mithilfe von Tools der künstlichen Intelligenz übersetzt und wurde noch nicht überprüft oder verifiziert.
Top