Comparison of NR and UniClust Databases for Protein Secondary Structure Prediction
Loading...
Date
2018
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
IEEE
Abstract
Proteinlerin üç boyutlu yapılarının tahmin edilmesi
teorik kimya ve biyoenformatik için önemli problemlerden
biridir. Üç boyutlu yapı tahminin en önemli aşamalarından biri
ise ikincil yapı tahminidir. İkincil yapı tahmininde başarı
oranının artırılması kullanılan sınıflama algoritması kadar,
hesaplanan özniteliklere de bağlı olmaktadır. Öznitelik çıkarmak
için sıkça kullanılan çoklu hizalama yöntemlerinde ise
hesaplanan değerler, hizalama için kullanılan veri tabanına göre
farklılık göstermektedir. Bu nedenle öznitelik matrisleri
oluşturulurken uygun veri tabanın seçilmesi önem
kazanmaktadır. Bu çalışmada CB513 veri seti kullanılarak iki
farklı hizalama yöntemi ve üç farklı veri tabanı yardımı ile 5
farklı veri seti oluşturulmuş ve bu veri setleri iki aşamalı hibrit
bir sınıflandırıcı kullanılarak karşılaştırılmıştır. Elde edilen
sonuçlar doğrultusunda en iyi başarı oranı HHBlits hizalama
yönteminin ilk aşamasında hesaplanacak PSSM değerleri için
UniClust ve yapısal profil matrisleri için yine HHBlits’in ilk
aşamasında NR veri tabanı kullanıldığında elde edilmiştir.
Three-dimensional structure prediction is one of the important problems in bioinformatics and theoretical chemistry. One of the most important steps in the threedimensional structure prediction is the estimation of secondary structure. Improving the accuracy rate in protein secondary structure prediction depends on computed attributes as well as the classification algorithms. In multiple alignment methods, which are often used to extract an attribute, the calculated values differ according to the database used for the alignment. For this reason, it is important to use a suitable database against which the target proteins are aligned to compute profile feature vectors. In this study, 5 different datasets are generated for the CB513 benchmark with the aid of two different alignment methods and three different databases. The profile features are fed as input to a two-stage hybrid classifier. According to the experimental results, the highest accuracy rate is obtained when UniClust database is used at the first stage of HHBlits alignment to calculate PSSM values and NR database is used at the first stage of HHBlits alignment to calculate structural profile matrices.
Three-dimensional structure prediction is one of the important problems in bioinformatics and theoretical chemistry. One of the most important steps in the threedimensional structure prediction is the estimation of secondary structure. Improving the accuracy rate in protein secondary structure prediction depends on computed attributes as well as the classification algorithms. In multiple alignment methods, which are often used to extract an attribute, the calculated values differ according to the database used for the alignment. For this reason, it is important to use a suitable database against which the target proteins are aligned to compute profile feature vectors. In this study, 5 different datasets are generated for the CB513 benchmark with the aid of two different alignment methods and three different databases. The profile features are fed as input to a two-stage hybrid classifier. According to the experimental results, the highest accuracy rate is obtained when UniClust database is used at the first stage of HHBlits alignment to calculate PSSM values and NR database is used at the first stage of HHBlits alignment to calculate structural profile matrices.
Description
Keywords
Secondary Structure Prediction, Protein Structure Prediction, Multi Alignment, Protein Database, İkincil Yapı Tahmini, Protein Yapı Tahmini, Çoklu Hizalama, Protein Veri Tabanı
Turkish CoHE Thesis Center URL
Citation
WoS Q
Scopus Q
Source
Volume
Issue
Start Page
1
End Page
4