Please use this identifier to cite or link to this item: https://hdl.handle.net/20.500.13091/5099
Title: Derinlemesine ayrılabilir evrişim ve LSTM ağları ile görüntülerden anlamsal ifade çıkarma
Other Titles: Semantic expression extraction from images with depthwise separable convolution and LSTM networks
Authors: Şenel, Ezgi̇su
Advisors: İşcan, Hazi̇m
Keywords: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol
Computer Engineering and Computer Science and Control
Publisher: Konya Teknik Üniversitesi
Abstract: Bir görüntünün içeriğini, görüntünün bize neler anlattığını cümleler kurarak doğru bir şekilde ifade etmek insan beyni için her ne kadar kolay olsa da bir bilgisayar için bu işlemi yapmak oldukça zordur. Doğru ve iyi biçimlendirilmiş cümleler oluşturmak için, dilin hem sözdizimsel hem de anlamsal olarak anlaşılması gerekir. Bu konuda karşımıza çıkan en büyük zorluk sadece görüntülerde bulunan nesneleri değil, aynı zamanda bu nesnelerin birbirleriyle ilişkisini, nasıl bir ilişki içerisinde olduklarını ifade eden bir açıklama oluşturabilmektir. Derin öğrenme yaklaşımı ile ağlar, görüntülerdeki nesneleri, yüzleri, sahneleri ve diğer anlamsal bilgileri anlamak için büyük veri kümeleri üzerinde eğitilir. Görüntülerin anlamsal analizi, otomotiv, güvenlik, video gözetimi ve tıbbi görüntüleme gibi birçok alanda uygulanabilmektedir. Bu alan, daha doğru ve karmaşık analizler sağlayan yeni derin öğrenme modelleri ve büyük veri kümeleriyle sürekli olarak gelişmekte ve ilerlemektedir. Bu çalışmada, Flickr_8k veri setinde bulunan 8000 görüntünün, Xception modeli ile özellik çıkarımı yapılmıştır. Diğer bir yandan Flickr_8k'da bulunan görüntülere ait 5 açıklamadan, LSTM ile benzersiz sözlük yapısı ortaya çıkarılmıştır. Elde edilen bu iki veri transfer öğrenme yapılan modele verilerek görüntülerin doğal cümlelere çevrilmesi sağlanmıştır.
While it is easy for the human brain to accurately express the content of an image and what it tells us in sentences, it is very difficult for a computer. In order to create accurate and well-formed sentences, the language needs to be understood both syntactically and semantically. The biggest challenge is to create a description of not only the objects in the images, but also how they relate to each other and how they are related. With a deep learning approach, networks are trained on large datasets to understand objects, faces, scenes and other semantic information in images. Semantic analysis of images can be applied in many fields such as automotive, security, video surveillance and medical imaging. This field is constantly evolving and advancing with new deep learning models and large datasets that enable more accurate and complex analysis. In this study, feature extraction of 8000 images from the Flickr_8k dataset was performed with the Xception model. On the other hand, a unique lexicon structure was extracted from 5 descriptions of the images in Flickr_8k with LSTM. These two data were given to the transfer learning model to translate the images into natural sentences.
URI: https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=weFMBHaUra8rsS5wi2bmHI6uXUY9TEjCQf7BWWOKLWTZ4yNv3i29dSQayD5Vrf3i
https://hdl.handle.net/20.500.13091/5099
Appears in Collections:Tez Koleksiyonu

Show full item record



CORE Recommender

Page view(s)

28
checked on Apr 29, 2024

Google ScholarTM

Check





Items in GCRIS Repository are protected by copyright, with all rights reserved, unless otherwise indicated.