An Ensemble Feature Selection Methodology That Incorporates Domain Knowledge for Cardiovascular Disease Diagnosis

Abstract

Koroner Arter Hastalığı (KAH), arterlerin duvarlarında aterom denilen yağlı madde birikiminin bir sonucu olarak kalbin yeterince beslenememesi durumudur. KAH, 2016 yılında dünyadaki toplam ölümlerin %31'ine (17,9 milyon) neden olmuştur ve teşhis edilmesi zordur. 2030 yılında, yaklaşık olarak 23,6 milyon insanın bu hastalıktan öleceği tahmin edilmektedir. Makine öğrenmesi ve veri madenciliği yöntemlerinin gelişmesiyle birlikte, bazı fiziksel ve biyokimyasal değerleri inceleyerek, KAH’nı ucuz ve zahmetsiz bir şekilde teşhis etmek mümkün olabilir. Bu çalışmada, KAH sınıflandırma problemi için, uzman bilgisini içine alan yeni bir topluluk öznitelik seçim yöntemi önerilmiştir. Önerilen çözüm, UCI Cleveland KAH veri kümesi üzerinde uygulanmış, farklı sınıflandırma algoritmaları kullanılarak, farklı performans ölçütleri karşılaştırılmıştır. Gerçekleştirdiğimiz deneylerde, önerdiğimiz çözümün, MLP sınıflandırıcısı ve seçilen 9 öznitelik kullanıldığında, %85.47 doğruluk, %82.96 hassasiyet ve 0.839 F-ölçüsüne ulaştığı gösterilmiştir. Bu çalışmanın devamında, hastanelerde gerçek zamanlı veriler üzerinde, hızlı bir şekilde KAH tahminlemesi yapabilecek bir makine öğrenmesi modeli oluşturabilmeyi amaçlıyoruz.
Coronary Artery Disease (CAD) is the condition where, the heart is not fed enough as a result of the accumulation of fatty matter called atheroma in the walls of the arteries. In 2016, CAD accounts for 31% (17.9 million) of the world's total deaths and its diagnosis is difficult. It is estimated that approximately 23.6 million people will die from this disease in 2030. With the development of machine learning and data mining techniques, it might be possible to diagnose CAD inexpensively and easily via examining some physical and biochemical values. In this study, for the CAD classification problem, a novel ensemble feature selection methodology that incorporates domain knowledge is proposed. Via applying the proposed methodology on the UCI Cleveland CAD dataset and using different classification algorithms, performance metrics are compared. It is shown that in our experiments, when Multilayer Perceptron classifier is used with 9 selected features, our proposed solution reached 85.47% accuracy, 82.96% accuracy and 0.839 F-Measure. As a future work, we aim to generate a machine learning model that can quickly diagnose CAD on real-time data in hospitals.

Description

Keywords

Veri Madenciliği, Makine Öğrenmesi, Sınıflandırma Algoritması, Koroner Arter Hastalığı, Data mining, Machine Learning, Classification Algorithm, Coronary Artery Disease

Turkish CoHE Thesis Center URL

Citation

WoS Q

Scopus Q

Source

Volume

Issue

Start Page

End Page