Endoskopik Görüntülerden Polip Segmentasyonu ve Gastrointestinal Bulguların Sınıflandırılması: Transformers ve Hibrit Modellerin Etkinliği

Solak, Fatma ZehraEker, Bengisu Ungan2025-10-102025-10-102024https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=Xau5rw3KuCgEuy-FuJQtsM9M1NZ5CvZnENRvFaQUjE4tJbPDumZPM7od9kgkyzqVhttps://hdl.handle.net/20.500.13091/10922Gastrointestinal (GI) sistem hastalıkları, dünya genelinde sıkça görülen ve hem ölüme hem de yaşam kalitesinin düşmesine yol açan önemli sağlık sorunlarıdır. Bu nedenle, erken ve doğru teşhis tedavi başarısı için hayati öneme sahiptir; özellikle polip, ülser ve tümör gibi bulguların zamanında saptanması hastalığın ilerlemesini önlemede kritik rol oynar. Endoskopik görüntüler bu açıdan değerli bir tanı aracı olmakla birlikte, manuel değerlendirmeleri hem zaman alıcı hem de hata riski taşımaktadır. Bu yüzden, yapay zekâ destekli otomatik analiz yöntemleri, klinik karar süreçlerini desteklemek için giderek daha fazla önem kazanmaktadır. Bu tez çalışması, Kvasir v2 veri seti kullanılarak endoskopik görüntüler üzerinden hem polip segmentasyonu hem de gastrointestinal bulguların sınıflandırılması görevlerinde Transformer tabanlı ve hibrit derin öğrenme mimarilerinin etkinliğini incelemektedir. Sınıflandırma görevinde Vision Transformer (ViT), Swin Transformer, ConvNeXt ve ConViT; segmentasyon görevinde ise SegFormer ve Swin Transformer + UPerNet mimarileri kullanılmıştır. Geniş kapsamlı veri önişleme adımlarının ardından, eğitim sürecinde rastgele veri ayrıştırma ve 5 katlı çapraz doğrulama stratejileri uygulanmış; modeller doğruluk, F1-skoru, Dice ve IoU gibi çeşitli metriklerle değerlendirilmiştir. Sınıflandırma görevinde ConvNeXt modeli, rastgele ayrıştırma stratejisinde %98,50 doğruluk ve %98,46 F1-skoru ile en yüksek başarıyı göstermiş; çapraz doğrulama stratejisinde ise %98,13 doğruluk ve %98,25 F1-skoruna ulaşmıştır. Segmentasyon görevinde ise Swin Transformer + UPerNet modeli %97,24 doğruluk, 0,9025 Dice ve 0,8303 IoU skorları ile öne çıkarken; SegFormer modeli %96,20 doğruluk ve 0,8731 Dice skoruna ulaşmıştır. Transformer mimarileri, özellikle uzun menzilli bağlam bilgilerini modelleme becerisi sayesinde tıbbi görüntülerdeki karmaşık yapıları analiz etmede önemli avantajlar sunmakta; hibrit modeller ise bu yapıları konvolüsyonel önyargılarla destekleyerek genelleme kabiliyetini artırmaktadır. Elde edilen bulgular, Transformer tabanlı yaklaşımların tıbbi görüntüleme alanındaki uygulanabilirliğini ortaya koyarken, klinik karar destek sistemlerinin geliştirilmesine de katkı sunmaktadır.Gastrointestinal (GI) system diseases are common worldwide and cause both death and a decline in quality of life. Therefore, early and accurate diagnosis is vital for successful treatment; timely detection of findings such as polyps, ulcers, and tumors plays a critical role in preventing disease progression. While endoscopic images serve as valuable diagnostic tools, their manual evaluation is time-consuming and prone to errors. For this reason, AI-supported automatic analysis methods are becoming increasingly important to assist clinical decision-making processes. This thesis investigates the effectiveness of Transformer-based and hybrid deep learning architectures in polyp segmentation and GI finding classification using the Kvasir v2 dataset. Vision Transformer (ViT), Swin Transformer, ConvNeXt, and ConViT were used for classification tasks, while SegFormer and Swin Transformer + UPerNet were employed for segmentation. After comprehensive preprocessing, training was conducted using both random data splitting and 5-fold cross-validation strategies, and the models were evaluated using multiple metrics, including accuracy, F1-score, Dice, and IoU. In classification, the ConvNeXt model achieved the highest performance with 98.50% accuracy and 98.46% F1-score under random splitting, and 98.13% accuracy and 98.25% F1-score with cross-validation. For segmentation, the Swin Transformer + UPerNet model stood out with 97.24% accuracy, a Dice score of 0.9025, and an IoU of 0.8303, while SegFormer reached 96.20% accuracy and a Dice score of 0.8731. Transformer architectures provide notable advantages in analyzing complex structures in medical images due to their ability to model long-range contextual relationships. Hybrid models further enhance generalization by incorporating convolutional inductive biases. The findings demonstrate the applicability of Transformer-based approaches in medical image analysis and contribute to the development of clinical decision support systems.trBilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolComputer Engineering and Computer Science and ControlEndoskopik Görüntülerden Polip Segmentasyonu ve Gastrointestinal Bulguların Sınıflandırılması: Transformers ve Hibrit Modellerin EtkinliğiPolyp Segmentation and Classification of Gastrointestinal Findings from Endoscopic Images: The Effectiveness of Transformers and Hybrid ModelsMaster Thesis