Makine Öğrenmesi ile Protein Parçacık Seçimi
Loading...
Date
2018, 2018
Journal Title
Journal ISSN
Volume Title
Publisher
Abdullah Gül Üniversitesi
Open Access Color
OpenAIRE Downloads
OpenAIRE Views
Abstract
Protein parçacık seçimi proteinlerin üç boyutlu yapılarının tahmin edilmesindeki önemli adımlardan biridir. Doğru parçacık yapılarının seçilmesi üç boyutlu yapının doğru tahmin edilmesi için gereklidir. Bu tezde verilen iki protein parçacığının üç boyutlu yapılarının birbirine benzer olup olmadığını tahmin eden çeşitli yapay öğrenme yöntemleri geliştirilmiştir. Bu sayede yapısı bilinmeyen bir hedef protein için parçacık yapılarının seçilmesi mümkün olacaktır. Tahmin yönteminin girdi olarak kullanacağı öznitelik parametrelerinin tasarlanması için bir konsept hiyerarşi yaklaşımı izlenmiştir. Bunun için dizi profil matrisleri, ikincil yapı, çözücü erişilirlik ve bükülme açı sınıfı tahminleri çeşitli kombinasyonlarda ve izdüşüm uzaylarında incelenmiştir. Üç ve dokuz amino asitlik parçacıkların yapısal benzerlik tahmini için çeşitli sınıflandırma ve regresyon modelleri eğitilmiş ve optimize edilmiştir. Bunlar arasında lojistik regresyon, AdaBoost, karar ağacı, en yakın komşu, sade Bayes, rastgele orman, destek vektör makinası ve çok-katmanlı algılayıcı bulunmaktadır. Elde edilen sonuçlara göre farklı öznitelik kümelerinin konsept hiyerarşi yaklaşımı ile birleştirilmesi ve model optimizasyonları tahmin başarısını önemli oranda iyileştirmiştir. Ayrıca çapraz doğrulama deneyleri neticesinde parçacık benzerliğinin yüksek başarı oranları ile tahmin edilebildiği gösterilmiştir. Parçacık benzerliği sınıflandırma problemi olarak tanımlandığı zaman tahmin yöntemlerinin başarı oranları birbirine yakın olarak elde edilmiştir. Regresyon modelleri arasında ise rastgele orman yöntemi en yüksek tahmin başarısına ulaşmıştır.
Protein fragment selection is an important step in predicting the three-dimensional (3D) structure of proteins. Selecting the right fragments contributes significantly to accurate prediction of 3D structure. In this thesis, a machine learning approach is employed to predict whether a pair of protein fragments have similar 3D structures or not, which can be used to select fragment structures for a target protein with unknown structure. To design input features, a concepy hierarchy is implemented, which considers sequence profile matrices, predicted secondary structure, solvent accessibility and torsion angle classes as features in various combinations and projections. Several machine learning classifiers and regressors are trained and optimized for predicting the structural similarity of 3-mer and 9-mer fragments including logistic regression, AdaBoost, decision tree, k-nearest neighbor, naive Bayes, random forest, SVM and multi-layer perceptron. The results demonstrate that combining different feature sets through concept hierarcy and model optimization improves the prediction accuracy substantially. Furthermore it is possible to predict the structural similarity of fragment pairs with high accuracy, which is assessed by perforing cross-validation experiments on fragment datasets. When the structural similarity of fragments is defined as a classification problem, the accuracy of different classifiers are obtained as similar to each other. Among the regression methods, random forest provided the best accuracy metrics.
Protein fragment selection is an important step in predicting the three-dimensional (3D) structure of proteins. Selecting the right fragments contributes significantly to accurate prediction of 3D structure. In this thesis, a machine learning approach is employed to predict whether a pair of protein fragments have similar 3D structures or not, which can be used to select fragment structures for a target protein with unknown structure. To design input features, a concepy hierarchy is implemented, which considers sequence profile matrices, predicted secondary structure, solvent accessibility and torsion angle classes as features in various combinations and projections. Several machine learning classifiers and regressors are trained and optimized for predicting the structural similarity of 3-mer and 9-mer fragments including logistic regression, AdaBoost, decision tree, k-nearest neighbor, naive Bayes, random forest, SVM and multi-layer perceptron. The results demonstrate that combining different feature sets through concept hierarcy and model optimization improves the prediction accuracy substantially. Furthermore it is possible to predict the structural similarity of fragment pairs with high accuracy, which is assessed by perforing cross-validation experiments on fragment datasets. When the structural similarity of fragments is defined as a classification problem, the accuracy of different classifiers are obtained as similar to each other. Among the regression methods, random forest provided the best accuracy metrics.
Description
Keywords
Computer Engineering And Computer Science And Control, Bioengineering, Bilgisayar Mühendisliği Bilimleri-Bilgisayar Ve Kontrol, Biyomühendislik
Turkish CoHE Thesis Center URL
Fields of Science
Citation
WoS Q
Scopus Q
Source
Volume
Issue
Start Page
End Page
85