ISSN: 2161-0398
David Horn*, Uri Weingart
Die Methodik der spezifischen Peptide (SP) wurde im Zusammenhang mit Enzymen eingeführt. Sie basiert auf einem unbeaufsichtigten Tool für maschinelles Lernen (ML) zur Motivextraktion, gefolgt von einer überwachten Annotation von Motiven. Im Fall von Enzymen ist der Klassifikator die Enzymklassifizierungsnummer (EC). Hier untersuchen wir dieses Problem erneut und zeigen, dass wir bei derzeit verfügbaren Proteinsequenzen eine Präzision von 0,965 und einen Rückruf von 0,891 erreichen. Darüber hinaus ist die Anwendung unserer Methodik zum Abfragen von Proteinen viel schneller als Deep-Learning-Methoden, die für denselben Zweck verwendet werden.
Wir wenden diese Methode auch auf zwei andere Proteingruppen an, G-Protein-Kopplungsrezeptoren (GPCR) und Zinkfingerproteine, finden ihre entsprechenden SPs und stellen den Code bereit, mit dem jede Proteinsequenz nach ihrer Klassifizierung unter einer solchen Familie durchsucht werden kann. Einige Proteine, die Anmerkungen haben, die zu zwei der drei Systeme gehören, werden diskutiert. Unsere Methodik kann auf jede Proteingruppe angewendet werden, um ihre entsprechenden SPs zu finden und den Code bereitzustellen, mit dem jede Proteinsequenz nach ihrer Klassifizierung unter einer solchen Familie durchsucht werden kann.