Yapay Sinir Ağı Kullanılarak Dengesiz Veri Kümelerinde Sınıflandırma Başarısının Artırılması
Loading...
Files
Date
2021
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Konya Teknik Üniversitesi
Open Access Color
OpenAIRE Downloads
OpenAIRE Views
Abstract
Veri kümelerinde, sınıflar arasında dengeli bir dağılım bulunmaması sonucunda dengesiz veri kümeleri ortaya çıkmaktadır. Bu dengesiz veri kümelerinde karşılaşılan en büyük problemlerden biri ise sınıflandırma başarısıdır. Sınıflandırma başarısı çoğunluk sınıfında yüksek değerlere yakın iken, azınlık sınıfında sınıflandırma başarısında yanlışlıklar ve hatalar görülmektedir. Bu tez çalışmasında dengesiz dağılım gösteren veri kümelerinde sınıflandırma başarısının artırılmasına yönelik çalışmalar yapılmıştır. Sınıflandırma başarısının artırılması için yapay sinir ağlarından yararlanılmıştır. Bu çalışmada yapay sinir ağları kullanılarak yedi yöntem önerilmiş olup sınıflandırma sonuçları için geometrik ortalama ve f ölçüsü metriklerinden yararlanıp, bu metriklerin değerlendirilmesi için de Friedman testi istatistik ölçüsünden faydalanılmıştır. Bu yöntemlerde en başarılı sonuç elde edilen yöntemde yapay sinir ağları ile rastgele örnekler üretilmiş olup bu örnekler bir eşik değeriyle sınırlandırılmıştır. Tez çalışmasında yapılan yöntemlerden alınan sonuçlar, orijinal veri kümesinin sonuçları ve temel SMOTE yöntemi sonuçları ile karşılaştırılırmıştır. Karşılaştırılma sonucunda başarılı sonuçlar elde edilmiş olup dengesiz veri kümelerinde sınıflandırma başarısı artırılmıştır.
In data sets, imbalanced data sets emerge as a result of not having a balanced distribution among classes. One of the biggest problems encountered in these unbalanced data sets is classification success. While the classification success is close to high values in the majority class, inaccuracies and errors are observed in the classification success in the minority class. In this thesis, studies have been conducted to increase the success of classification in data sets with uneven distribution. Artificial neural networks have been used to increase the classification success. In this study, seven methods using artificial neural networks are proposed, and geometric mean and f measure metrics are used for classification results, and Friedman's means evaluation statistics measure is used to evaluate these metrics. In these methods, random samples were produced with artificial neural networks in the method with the most successful results, and these samples were limited to a threshold value. The results obtained from the methods in the thesis study were compared with the results of the original data set and the results of the basic SMOTE method. Successful results were obtained as a result of the comparison, and classification success was increased in unbalanced data sets.
In data sets, imbalanced data sets emerge as a result of not having a balanced distribution among classes. One of the biggest problems encountered in these unbalanced data sets is classification success. While the classification success is close to high values in the majority class, inaccuracies and errors are observed in the classification success in the minority class. In this thesis, studies have been conducted to increase the success of classification in data sets with uneven distribution. Artificial neural networks have been used to increase the classification success. In this study, seven methods using artificial neural networks are proposed, and geometric mean and f measure metrics are used for classification results, and Friedman's means evaluation statistics measure is used to evaluate these metrics. In these methods, random samples were produced with artificial neural networks in the method with the most successful results, and these samples were limited to a threshold value. The results obtained from the methods in the thesis study were compared with the results of the original data set and the results of the basic SMOTE method. Successful results were obtained as a result of the comparison, and classification success was increased in unbalanced data sets.
Description
Keywords
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control
Turkish CoHE Thesis Center URL
Fields of Science
Citation
WoS Q
N/A
Scopus Q
N/A
Source
Volume
Issue
Start Page
1
End Page
56
Collections
Downloads
3
checked on Feb 04, 2026
