Solak, AhmetConde, Ibrahıma Kalıl2026-04-102026-04-102026https://hdl.handle.net/20.500.13091/13242https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=KOgdn9H3uVnWeb15j2W4h0wcHksuQKVl5TKPXb_srp4uxyuybw_0YTrXEven7TFKEndüstri 4.0 ile üretim hatlarında kalite kontrol süreçlerinin otomatikleşmesi, hız ve doğruluk gereksinimlerini ön plana çıkarmıştır. Bu tez çalışması, endüstriyel kalite kontrol uygulamalarında karşılaşılan bu zorlukları aşmak amacıyla, yüksek hızlı nesne tespiti sağlayan YOLO (You Only Look Once) algoritması ile görsel sınıflandırmada üstün başarı gösteren Vision Transformer (ViT) mimarisini birleştiren hibrit bir derin öğrenme sistemi önermektedir. Çalışmada, plastik çatal üretimi yapan gerçek bir endüstriyel tesisten elde edilen ve 2,5 MP çözünürlüklü endüstriyel kamera ile kaydedilen toplam 8.054 adet görüntü (6.157 hatasız, 1.897 hatalı) kullanılmıştır. Veri seti üzerinde sınıf dengesizliğini gidermek ve modelin genelleme yeteneğini artırmak amacıyla kapsamlı veri artırma teknikleri uygulanmış ve görüntüler YOLO formatında etiketlenmiştir. Deneysel analizlerde öncelikle, aday bölge önerisi (region proposal) için farklı YOLO varyantları (v8, v10, v11, v12) karşılaştırılmış; ön-eğitimli YOLOv11m modelinin %82,63 mAP@0.5 değeri ile en yüksek tespit performansını sergilediği belirlenmiştir. Sınıflandırma aşamasında ise, sınıflandırma başlığı yeniden tasarlanan ve hiper parametreleri optimize edilen ViT-base-patch16-224 modeli, %97,03 doğruluk ve %93,73 F1-skoru elde ederek yüksek bir ayırt edicilik sağlamıştır. Önerilen iki aşamalı hibrit sistem (YOLO-ViT), YOLO tarafından tespit edilip kırpılan ilgili alanların (ROI) ViT modeli ile sınıflandırılması prensibine dayanmaktadır. Entegre sistemin uçtan uca test sonuçları, %95,77 genel doğruluk ve %97,19 F1-skoru ile tekil modellere kıyasla daha üstün bir performans ortaya koymuştur. Tez kapsamında ayrıca; model seçim kriterleri, eğitim stratejileri, performans metrikleri (mAP, kesinlik, duyarlılık, F1, FPS) ve hata analizleri detaylandırılmış; sistemin uç cihazlarda uygulanabilirliğine yönelik model sıkıştırma ve sentetik veri üretimi gibi gelecek çalışmalar için öneriler sunulmuştur. Elde edilen bulgular, önerilen hibrit mimarinin gerçek zamanlı endüstriyel kalite kontrol gereksinimlerini yüksek güvenilirlikle karşılayabildiğini göstermektedir.With the advent of Industry 4.0, the automation of quality control processes in production lines has highlighted the need for both speed and accuracy. This thesis proposes a hybrid deep learning system combining the high-speed object detection capabilities of the YOLO (You Only Look Once) algorithm with the superior classification performance of the Vision Transformer (ViT) architecture to address these challenges in industrial quality control applications. The study utilized a dataset obtained from a real industrial facility producing plastic forks, consisting of 8,054 images (6,157 non-defective, 1,897 defective) captured with a 2.5 MP industrial camera. To mitigate class imbalance and enhance the model's generalization capability, comprehensive data augmentation techniques were applied, and the images were annotated in the YOLO format. In the experimental analysis, various YOLO variants (v8, v10, v11, v12) were first evaluated for region proposal tasks. The pre-trained YOLOv11m model exhibited the highest detection performance with an mAP@0.5 of 82.63%. For the classification stage, the ViT-base-patch16-224 model, with a redesigned classification head and optimized hyperparameters, achieved high discriminative power with 97.03% accuracy and an F1-score of 93.73%. The proposed two-stage hybrid system (YOLO-ViT) operates on the principle of classifying Regions of Interest (ROI) detected and cropped by YOLO using the ViT model. End-to-end test results of the integrated system demonstrated superior performance compared to individual models, achieving an overall accuracy of 95.77% and an F1-score of 97.19%. The thesis also details model selection criteria, training strategies, performance metrics (mAP, precision, recall, F1, FPS), and failure analysis. Furthermore, recommendations for future work, such as model compression and synthetic data generation for deployment on edge devices, are provided. The findings indicate that the proposed hybrid architecture can reliably meet the requirements of real-time industrial quality control.trElektrik ve Elektronik MühendisliğiElectrical and Electronics EngineeringVision Transformer and Yolo-Based Faulty Product Detection-Classification SystemVısıon Transformer ve YOLO Tabanlı Hatalı Ürün Tespit-Sınıflandırma SistemiMaster Thesis