ISSN: 0974-276X
Nouman Rasool, Waqar Hussain und Sajid Mahmood
Das Erreichen ausreichender Konzentrationen löslicher Proteine unter Verwendung von In-vitro -Methoden ist ein immer wiederkehrender limitierender Faktor. Die Löslichkeit ist eine unabhängige Eigenschaft eines Proteins, die anhand der Aminosäurezusammensetzung unter bestimmten experimentellen Bedingungen bestimmt werden kann. Die vorliegende Studie zielt auf die Vorhersage der Proteinlöslichkeit ab, indem maschinell lernende Ansätze unter Verwendung von Informationen zur Primärstruktur angepasst werden. Die Merkmale umfassen Merkmale der Aminosäurezusammensetzung sowie die physikochemischen Eigenschaften der Aminosäuren, d. h. kanonischer Wert, Hydrophobie, Löslichkeitsindex und Löslichkeitswert. Für einen Datensatz von 6372 Proteinsequenzen (4850 lösliche Proteinsequenzen und 1522 unlösliche Proteinsequenzen) wurden alle vier Merkmale berechnet. Unter Verwendung der berechneten Werte wurden vier verschiedene Vorhersagemodelle basierend auf Multilayer Perceptron (MLP), Random Forest (RF), Decision Tree (DT) und Naïve Bayes Classifier (NBC) entwickelt. Zur Leistungsbewertung werden MCC, F-Maß, Richtigkeit, Präzision und Trefferrate bestimmt. Unter allen vier Vorhersagemodellen erwies sich MLP mit einer Genauigkeitsrate von 95,92 % als das genaueste Modell zur Vorhersage der Proteinlöslichkeit, gefolgt von RF und NBC. Das vorgeschlagene, auf MLP basierende Modell kann zur Vorhersage der Proteinlöslichkeit als Vorprozess für experimentelle Vorhersagen verwendet werden. Die Methode ist ressourcen- und zeiteffizient und kann bei der Vorhersage der Proteinlöslichkeit helfen, anstatt mühsame und hektische experimentelle Arbeit zu leisten.