Saliency Detection with Deep Learning in 2 Dimension Images

Baykan, NurdanÖzdoğan, Gönül Sinem2025-09-102025-09-102025https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=5NNqZKwwGohPh6_KCcfp-rXSfhHSSsrnqT1FAGUiDz9hL2B9oWIFHrf08m803pYRhttps://hdl.handle.net/20.500.13091/10765Görüntü verilerinde nesnelerin tespit edilmesi, teknolojinin gelişmesiyle birlikte önemli bir konu haline gelmiştir. Belirgin nesne tespiti, görüntüdeki en dikkat çekici nesneyi belirlemeyi amaçlamaktadır. Karmaşık arka planlarda, nesnelerin iç içe olduğu durumlarda sınırlarının belirgin bir şekilde tespit edilmesi zorlu bir görevdir. Literatürde; nesnelerin dokuları, parlaklık düzeyleri, renkleri gibi özelliklerine dayanarak belirgin nesneleri tespit eden yöntemler denenmiştir ancak bu yöntemlerdeki özellikler nesneleri genel hatlarıyla sınıflandırsa da karmaşık arka planlı görüntülerde başarılı olamamıştır. Son zamanlarda farklı ön işleme metotları, farklı omurga ağları kullanan yapay sinir ağı mimarileri ile uygulanan yöntemler belirginlik tespitinde yaygın olarak kullanılmaktadır. Ancak nesnelerin genel hatları ve detay özellikleri aynı değildir. Bu sebeple yapay sinir ağı ve dikkat mekanizmalarını birlikte kullanan yöntemler geliştirilmiştir. Son yıllarda doğal dil işleme yöntemlerinden yola çıkarak transformer mimarileri görüntü verilerinde kullanılmaya başlanmıştır. Bu çalışmada, DUTS ve ECSSD veri setleri kullanılarak belirginlik tespiti yapılmıştır. Bunun için öncelikle Evrişimli Sinir Ağı kullanılmıştır. Daha sonra ise transformer kullanılarak belirginlik tespiti yapılmıştır. Transformer mimarilerinin başarımının artması için veri setlerinde öncelikle gürültü ekleme, rotasyon, blur gibi veri ön işleme yöntemleri ile verilerdeki çeşitlilik arttırılmıştır. Böylelikle çalışma kapsamında veri ön işleme metotlarının başarıya etkileri de incelenmiştir. Daha sonra belirginlik tespiti gerçekleştirilirken segmentasyon yöntemi kullanılmıştır. Mekansal dikkat, bir görüntüde hangi bölgelerin daha önemli olduğunu belirleyerek modelin bu alanlara odaklanmasını sağlar. Kanal tabanlı dikkat mekanizması ise her bir özellik haritasının ne kadar önemli olduğunu değerlendirerek modelin daha anlamlı kanallara ağırlık vermesine yardımcı olur. en başarılı sonuçlar DUTS veri kümesinde 0.019 Ortalama Mutlak Hata (OMH), 0.961 Geliştirilmiş Hizalama Ölçütü (GHÖ) ve 0.936 Yapısal Benzerlik Ölçütü (YBÖ) değerleri ile 'Segment Anything Model UNet - 2.1' modeli ile elde edilmiştir.The detection of objects in image data has become an important topic with the advancement of technology. Salient object detection aims to identify the most attention-grabbing object in an image. In complex backgrounds or when objects are overlapping, clearly detecting object boundaries becomes a challenging task. In the literature, various methods have been proposed that rely on object features such as texture, brightness levels, and color to detect salient objects. However, while these features can generally classify objects, they have not been successful in images with complex backgrounds. Recently, methods that utilize different preprocessing techniques and neural network architectures with various backbone networks have been widely used in saliency detection. However, objects' overall structure and fine details differ. Therefore, approaches combining neural networks with attention mechanisms have been developed. Inspired by natural language processing, transformer architectures have recently begun to be applied to image data. In this study, saliency detection was performed using the DUTS and ECSSD datasets. First, a Convolutional Neural Network (CNN) was used, followed by a transformer-based saliency detection approach. To enhance the performance of transformer architectures, data augmentation techniques such as noise injection, rotation, and blurring were applied to increase dataset diversity. In this way, the study also investigated the impact of preprocessing methods on model performance. For saliency detection, a segmentation method was used. Spatial attention helps the model focus on important regions in an image by determining which areas are most significant. Channel-wise attention evaluates the importance of each feature map and helps the model focus on more meaningful channels. The best results were obtained on the DUTS dataset using the 'Segment Anything Model UNet - 2.1,' achieving 0.019 Mean Absolute Error (MAE), 0.961 Enhanced Alignment Measure (E-measure), and 0.936 Structural Similarity Index (SSIM).trBilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolComputer Engineering and Computer Science and ControlSaliency Detection with Deep Learning in 2 Dimension ImagesDerin Öğrenme ile 2 Boyutlu Görüntülerde Belirginlik TespitiMaster Thesis