Kodaz, HalifeGül, Talha Cevher2025-10-102025-10-102025https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=Xau5rw3KuCgEuy-FuJQtsCjGWZMQr6JovljeGUxcwt5s3bJUjZDCAP13fA0YiG6Nhttps://hdl.handle.net/20.500.13091/10920Bu tez çalışması, Türkiye'deki ikinci el araç piyasasına ait gerçek veriler üzerinden, araçların satış fiyatlarının makine öğrenmesi algoritmalarıyla tahmin edilmesini amaçlamaktadır. Günümüzde araç fiyatlarının belirlenmesinde birçok değişkenin etkili olması ve fiyat aralıklarının büyük farklılık göstermesi, alıcı ve satıcılar açısından belirsizlik yaratmaktadır. Bu bağlamda, veri odaklı yaklaşımlarla nesnel ve tutarlı fiyat tahmini modellerinin geliştirilmesi, hem sektörel karar süreçlerine destek sunmakta hem de kullanıcı güvenliğini artırmaktadır. Çalışmada veri seti, çevrim içi araç ilan platformlarından bir web kazıma aracı kullanılarak oluşturulmuştur. Kazıma işlemi yalnızca Volkswagen marka araçlara odaklanmış, araçlara ait model yılı, kilometre bilgisi, yakıt türü, vites tipi ve motor hacmi gibi temel öznitelikler toplanmıştır. Toplanan veriler, eksik ve tutarsız gözlemlerden arındırılmış, kategorik değişkenler sayısallaştırılmış ve sayısal veriler normalizasyon işlemine tabi tutulmuştur. Elde edilen veri seti, yaklaşık 44000 satır ve 10-11 öznitelikten oluşan, analiz için temiz ve dengeli bir yapı sunmaktadır. Fiyat tahmini problemi, regresyon tipi bir makine öğrenmesi problemi olarak ele alınmıştır. Bu doğrultuda dört farklı algoritma seçilmiş ve karşılaştırılmıştır: Karar Ağaçları (KA), k-En Yakın Komşu (KEYK), (RO) ve Destek Vektör Makineleri (DVM). Her bir algoritma, hem geleneksel veri bölme stratejileri (%80 eğitim – %20 test, %90 eğitim – %10 test) hem de 5'ten 10'a kadar farklı k değerleriyle k-katlı çapraz doğrulama yöntemiyle test edilmiştir. Model performansları çok boyutlu olarak değerlendirilmiştir. Kullanılan ölçütler arasında R², Ortalama Mutlak Hata (OMH), Ortalama Kare Hata (OKH), Kök Ortalama Kare Hata (KOKH), Ortalama Mutlak Yüzde Hata (OMYH) ve Ortalama İşaretli Sapma (OİS) yer almıştır. Elde edilen bulgular, en yüksek doğruluk ve en düşük hata oranlarının rastgele orman algoritmasında toplandığını göstermiştir. Bu model %95'in üzerinde R² değeri ve yalnızca yaklaşık %6,9'luk OMYH değeriyle tahmin doğruluğunda en iyi sonucu vermiştir. KEYK algoritması da düşük hata metrikleriyle güçlü bir alternatif olarak değerlendirilmiştir. Öte yandan, karar ağaçları algoritmasının anlaşılabilirliğine rağmen istikrarsız sonuçlar ürettiği, DVM algoritmasının ise parametre duyarlılığı nedeniyle bazı veri bölmelerinde performans dalgalanmaları yaşadığı gözlemlenmiştir. Sonuç olarak çalışma, gerçek dünyadan elde edilen verilerle dört farklı algoritmanın karşılaştırmalı analizini yaparak, ikinci el araç fiyat tahmininde en uygun makine öğrenmesi yöntemini ortaya koymuştur. Rastgele orman modeli, istikrar, genellenebilirlik ve doğruluk açısından en başarılı sonuçları verirken, diğer algoritmaların belirli koşullarda avantaj ve dezavantajları ortaya konmuştur. Bu tez hem yöntemsel kapsamı hem de veri işleme süreçleriyle ikinci el araç fiyatlandırma alanında uygulanabilir bir karar destek sistemi tasarımı sunmakta, ayrıca gelecek çalışmalara ışık tutacak nitelikte çok yönlü bir modelleme yaklaşımı önermektedir.This thesis aims to predict the selling prices of vehicles using machine learning algorithms based on real data from the second-hand car market in Turkey. Nowadays, many variables are effective in determining vehicle prices and price ranges vary widely, which creates uncertainty for buyers and sellers. In this context, the development of objective and consistent price prediction models with data-driven approaches both supports sectoral decision-making processes and increases user safety. In the study, the dataset was created using a web scraping tool from online vehicle listing platforms. The scraping process focused only on Volkswagen brand vehicles, and basic attributes such as model year, mileage, fuel type, gear type and engine displacement were collected. The collected data were cleaned from missing and inconsistent observations, categorical variables were digitised and numerical data were subjected to normalisation process. The resulting dataset provides a clean and balanced structure for the analysis, consisting of approximately 1000 rows and 10-11 attributes. The price prediction problem is considered as a regression type machine learning problem. Four different algorithms were selected and compared: decision trees, k-nearest neighbors (KNN), random forest and support vector machines (SVM). Each algorithm was tested with both traditional data splitting strategies (80% training - 20% testing, 90% training - 10% testing) and k-fold cross-validation with different k values from 5 to 10. Model performances were evaluated multidimensionally. The metrics used included R², Mean Absolute Error (MAE), Mean Squared Error (MSE), Root Mean Square Error (RMSE), Mean Absolute Percentage Error (MAPE) and Mean Deviation Value (MDV). The results showed that the highest accuracy and lowest error rates were obtained in the random forest algorithm. This model gave the best result in prediction accuracy with an R² value of over 95% and a MAPE value of only about 6.9%. The KNN algorithm was also considered as a strong alternative with low error metrics. On the other hand, it was observed that the decision tree algorithm produced unstable results despite its comprehensibility, while the SVM algorithm experienced performance fluctuations in some data bins due to parameter sensitivity. As a result, the study provides a comparative analysis of four different algorithms with real-world data and reveals the most appropriate machine learning method for used car price prediction. While the random forest model gives the most successful results in terms of stability, generalisability and accuracy, the advantages and disadvantages of the other algorithms under certain conditions are revealed. This thesis presents a decision support system design that can be applied in the field of used car pricing with both its methodological scope and data processing processes, and also proposes a versatile modelling approach that will shed light on future studies.trBilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolComputer Engineering and Computer Science and ControlTürkiye'de İkinci El Araç Satış Fiyatlarının Tahmininde Makine Öğrenmesi Algoritmalarının KarşılaştırılmasıComparison of Machine Learning Algorithms in Prediction of Second-Hand Vehicle Sales Prices in TurkeyMaster Thesis