ISSN: 0974-276X
Ahmad Barghash, Taner Arslan und Volkhard Helms
Expressions- und Methylierungsdatensätze sind Standardtechniken in der Genomik, und es werden immer mehr Computermethoden implementiert, um die Analyse der riesigen und komplexen Menge generierter Daten zu unterstützen. Solche generierten Datensätze enthalten oft einen beträchtlichen Anteil an Ausreißern, die bei der nachfolgenden Analyse zu irreführenden Ergebnissen führen. Hier präsentieren wir einen umfassenden Ansatz zur Erkennung von Proben- und Genausreißern in Expressions- oder Methylierungsdatensätzen. Die Kernalgorithmen haben die meisten Ausreißer erkannt, die von uns künstlich eingeführt wurden. Durch hierarchisches Clustering erkannte Probenausreißer werden durch den Silhouette-Koeffizienten validiert. Auf Genebene haben die Algorithmen GESD, Boxplot und MAD mit einem F-Maß von mindestens 83 % die simulierten Ausreißergene in nicht überschnittenen Verteilungen erkannt. Dieser kombinierte Ansatz hat viele Ausreißer in öffentlich verfügbaren Datensätzen der Portale TCGA und GEO erkannt. Häufig stellte sich heraus, dass einige funktionell ähnliche Gene, die als Ausreißer markiert waren, Ausreißerbeobachtungen in gemeinsamen Proben aufweisen. Da solche Fälle von besonderem Interesse sein können, werden sie für weitere Untersuchungen gekennzeichnet. Expressions- und DNA-Methylierungsdatensätze sollten vor jeder weiteren Analyse eindeutig auf Ausreißerpunkte überprüft werden. Wir schlagen vor, dass bereits 2 Ausreißerbeobachtungen ausreichen, um ein Ausreißergen zu kennzeichnen, da sie ausreichen, um eine perfekte Koexpression zu zerstören. Darüber hinaus können Ausreißer auch nützliche Informationen enthalten, und daher sollten funktionell ähnliche Ausreißer für weitere Untersuchungen gekennzeichnet werden. Die vorgestellte Software ist kostenlos über GitHub verfügbar.