Comparison of Machine Learning Classifiers for Protein Secondary Structure Prediction
Loading...
Date
2018
Journal Title
Journal ISSN
Volume Title
Publisher
IEEE
Abstract
Proteinlerin üç boyutlu yapılarının tahmin edilmesi
teorik kimya ve biyoenformatik için önemli problemlerden biridir.
Protein yapı tahmininin en önemli aşamalarından biri ise ikincil
yapı tahminidir. Protein veritabanlarındaki verilerin hızlı artışı ve
yakın zamanda geliştirilen farklı öznitelik çıkarma yöntemleri
neticesinde ikincil yapı tahmini için kullanılan veri setleri boyut ve
örnek sayısı bakımından büyümektedir. Bu nedenle hızlı çalışan
ve belirli bir doğruluk oranını sahip tahmin algoritmaların
kullanılması önem kazanmaktadır. Bu çalışmada iki aşamalı
hibrit bir sınıflandırıcının ikinci aşaması için çeşitli sınıflama
algoritmaları, EVAset veri seti kullanılarak hem orijinal boyutlu
uzayda hem de bilgi kazancı metriği ile boyutu düşürülen uzayda
optimize edilmiştir. Elde edilen sonuçlar doğrultusunda en
başarılı tahmin yöntemi destek vektör makinası olurken model
eğitme süresi bakımından en hızlı yöntem aşırı öğrenme makinası
olarak elde edilmiştir.
Three-dimensional structure prediction is one of the important problems in bioinformatics and theoretical chemistry. One of the most important steps in the three-dimensional structure prediction is the estimation of secondary structure. Due to rapidly growing databases and recent feature extraction methods datasets used for predicting secondary structure can potentially contain a large number of samples and dimensions. For this reason, it is important to use algorithms that are fast and accurate. In this study, various classification algorithms have been optimized for the second phase of a two-stage classifier on EVAset benchmark both in the original input space and in the space reduced using the information gain metric. The most accurate classifier is obtained as the support vector machine while the extreme learning machine is significantly faster in model training.
Three-dimensional structure prediction is one of the important problems in bioinformatics and theoretical chemistry. One of the most important steps in the three-dimensional structure prediction is the estimation of secondary structure. Due to rapidly growing databases and recent feature extraction methods datasets used for predicting secondary structure can potentially contain a large number of samples and dimensions. For this reason, it is important to use algorithms that are fast and accurate. In this study, various classification algorithms have been optimized for the second phase of a two-stage classifier on EVAset benchmark both in the original input space and in the space reduced using the information gain metric. The most accurate classifier is obtained as the support vector machine while the extreme learning machine is significantly faster in model training.
Description
Keywords
İkincil Yapı Tahmini, Protein Yapı Tahmini, Öznitelik Seçimi, Makine Öğrenmesi, Secondary Structure Prediction, Feature Selection, Machine Learning