Dengesiz Sınıflandırma Sorunlarına Torbalama ve Arttırma Esaslı Yeni Bir Yaklaşım
Loading...
Files
Date
2022, 2022
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abdullah Gül Üniversitesi, Fen Bilimleri Enstitüsü
Open Access Color
OpenAIRE Downloads
OpenAIRE Views
Abstract
Classification algorithms are employed in a wide range of real-world problems such as obstacle detection, fraud detection, medical diagnosis, spam detection, speech recognition, image processing, intrusion detection, and so forth. However, it is not always an easy task to propose a legitimate classifier. For a classification task, there are numerous limitations of datasets. One of the most confronted limitations in real-world classification tasks is skewed class distribution, also called the class imbalance problem. When learning is employed in class imbalanced datasets without incorporating appropriate adjustments into the existing algorithms, minority classes are mostly misclassified. This study introduces a novel classification algorithm that outperforms previous studies on benchmark datasets used for the class imbalance problem. The presented novel algorithm, namely, BagBoost, involves aggregating modified bagging and modified boosting algorithms to increase the visibility of minority class instances. The state-of-the-art algorithms in the classification of imbalanced datasets are investigated. The results of the best existing algorithms are compared with the proposed algorithm using benchmark datasets. Results show that BagBoost is a better classifier than commonly used classification algorithms in the literature for benchmark datasets according to F-measure and G-mean scores.
Sınıflandırma algoritmaları, engel tespiti, dolandırıcılık tespiti, tıbbi teşhis, istenmeyen posta tespiti, konuşma tanıma, görüntü işleme, izinsiz giriş tespiti ve benzeri gibi çok çeşitli gerçek dünya problemlerinde kullanılır. Ancak, meşru bir sınıflandırıcı önermek her zaman kolay bir iş değildir. Bir sınıflandırma görevi için, çok sayıda veri kümesi sınırlaması vardır. Gerçek dünyadaki sınıflandırma görevlerinde en çok karşılaşılan sınırlamalardan biri, sınıf dengesizliği sorunu olarak da adlandırılan çarpık sınıf dağılımıdır. Öğrenme, sınıf dengesiz veri kümelerinde mevcut algoritmalara uygun ayarlamalar yapılmadan kullanıldığında, azınlık sınıfları çoğunlukla yanlış sınıflandırılır. Bu çalışma, sınıf dengesizliği problemi için kullanılan kıyaslama veri kümeleri üzerinde önceki çalışmalardan daha iyi performans gösteren özgün bir sınıflandırma algoritması sunmaktadır. Sunulan yeni algoritma, yani BagBoost, azınlık sınıfı örneklerinin görünürlüğünü artırmak için değiştirilmiş torbalama ve değiştirilmiş artırma algoritmalarının bir araya getirilmesini içerir. Dengesiz veri kümelerinin sınıflandırılmasında en gelişmiş algoritmalar araştırılmıştır. Mevcut en iyi algoritmaların sonuçları, kıyaslama veri kümeleri kullanılarak önerilen algoritma ile karşılaştırılmıştır. Sonuçlar, BagBoost'un F-ölçü ve G-ortalama puanlarına göre kıyaslama veri setleri için literatürde yaygın olarak kullanılan sınıflandırma algoritmalarından daha iyi bir sınıflandırıcı olduğunu göstermektedir.
Sınıflandırma algoritmaları, engel tespiti, dolandırıcılık tespiti, tıbbi teşhis, istenmeyen posta tespiti, konuşma tanıma, görüntü işleme, izinsiz giriş tespiti ve benzeri gibi çok çeşitli gerçek dünya problemlerinde kullanılır. Ancak, meşru bir sınıflandırıcı önermek her zaman kolay bir iş değildir. Bir sınıflandırma görevi için, çok sayıda veri kümesi sınırlaması vardır. Gerçek dünyadaki sınıflandırma görevlerinde en çok karşılaşılan sınırlamalardan biri, sınıf dengesizliği sorunu olarak da adlandırılan çarpık sınıf dağılımıdır. Öğrenme, sınıf dengesiz veri kümelerinde mevcut algoritmalara uygun ayarlamalar yapılmadan kullanıldığında, azınlık sınıfları çoğunlukla yanlış sınıflandırılır. Bu çalışma, sınıf dengesizliği problemi için kullanılan kıyaslama veri kümeleri üzerinde önceki çalışmalardan daha iyi performans gösteren özgün bir sınıflandırma algoritması sunmaktadır. Sunulan yeni algoritma, yani BagBoost, azınlık sınıfı örneklerinin görünürlüğünü artırmak için değiştirilmiş torbalama ve değiştirilmiş artırma algoritmalarının bir araya getirilmesini içerir. Dengesiz veri kümelerinin sınıflandırılmasında en gelişmiş algoritmalar araştırılmıştır. Mevcut en iyi algoritmaların sonuçları, kıyaslama veri kümeleri kullanılarak önerilen algoritma ile karşılaştırılmıştır. Sonuçlar, BagBoost'un F-ölçü ve G-ortalama puanlarına göre kıyaslama veri setleri için literatürde yaygın olarak kullanılan sınıflandırma algoritmalarından daha iyi bir sınıflandırıcı olduğunu göstermektedir.
Description
Keywords
Industrial And Industrial Engineering, Imbalance, Endüstri Ve Endüstri Mühendisliği, Classification, Dengesizlik, Community Methods, Sınıflandırma, Topluluk Yöntemleri
Turkish CoHE Thesis Center URL
Fields of Science
Citation
WoS Q
Scopus Q
Source
Volume
Issue
Start Page
End Page
55
Google Scholar™
Sustainable Development Goals
1
NO POVERTY

3
GOOD HEALTH AND WELL-BEING

6
CLEAN WATER AND SANITATION

7
AFFORDABLE AND CLEAN ENERGY

8
DECENT WORK AND ECONOMIC GROWTH

9
INDUSTRY, INNOVATION AND INFRASTRUCTURE

10
REDUCED INEQUALITIES

11
SUSTAINABLE CITIES AND COMMUNITIES

12
RESPONSIBLE CONSUMPTION AND PRODUCTION

13
CLIMATE ACTION

17
PARTNERSHIPS FOR THE GOALS
