Browsing by Author "Akdağ, Ali"
Now showing 1 - 3 of 3
- Results Per Page
- Sort Options
Article Citation - WoS: 4Citation - Scopus: 6Enhancing Signer-Independent Recognition of Isolated Sign Language Through Advanced Deep Learning Techniques and Feature Fusion(MDPI, 2024) Akdağ, Ali; Baykan, Ömer KaanSign Language Recognition (SLR) systems are crucial bridges facilitating communication between deaf or hard-of-hearing individuals and the hearing world. Existing SLR technologies, while advancing, often grapple with challenges such as accurately capturing the dynamic and complex nature of sign language, which includes both manual and non-manual elements like facial expressions and body movements. These systems sometimes fall short in environments with different backgrounds or lighting conditions, hindering their practical applicability and robustness. This study introduces an innovative approach to isolated sign language word recognition using a novel deep learning model that combines the strengths of both residual three-dimensional (R3D) and temporally separated (R(2+1)D) convolutional blocks. The R3(2+1)D-SLR network model demonstrates a superior ability to capture the intricate spatial and temporal features crucial for accurate sign recognition. Our system combines data from the signer's body, hands, and face, extracted using the R3(2+1)D-SLR model, and employs a Support Vector Machine (SVM) for classification. It demonstrates remarkable improvements in accuracy and robustness across various backgrounds by utilizing pose data over RGB data. With this pose-based approach, our proposed system achieved 94.52% and 98.53% test accuracy in signer-independent evaluations on the BosphorusSign22k-general and LSA64 datasets.Doctoral Thesis Evrişimsel Sinir Ağları Kullanılarak Video Tabanlı İzole İşaret Dili Tanıma(Konya Teknik Üniversitesi, 2024) Akdağ, Ali; Baykan, Ömer Kaanİşaret dili dünya genelinde milyonlarca işitme engelli birey için temel bir iletişim aracıdır. Ancak, işaret dilini anlamak ve kullanmak, işitenler arasında yaygın bir beceri değildir, bu da işitme engelli bireyler arasında sosyal izolasyon riskini artırır. Bu tez, kelime tabanlı İşaret Dili Tanıma (İDT - Sign Language Recognition, SLR) teknolojilerindeki mevcut kısıtlamaları ele alarak, bu alandaki algılama doğruluğunu ve genellenebilirliğini artırmayı hedeflemektedir. Bu kapsamda üç ana çalışma üzerinden, işaret dilinin manuel ve manuel olmayan unsurları kapsamlı bir şekilde analiz edilerek, derin öğrenme tabanlı sistemler sunulmuştur. İlk çalışmada, R3D ve R(2+1)D evrişim bloklarının avantajlarını birleştiren R3(2+1)D-SLR ağı önerilmiştir. Bu ağ, uzamsal ve zamansal özellikleri etkili bir şekilde çıkararak, işaret dili tanımada yüksek doğruluk ve sağlamlık sunar. R3(2+1)D-SLR tabanlı geliştirilen işaret dili tanıma sistemi, işaretçinin vücut, el ve yüzünden elde edilen verileri bir araya getirerek, Destek Vektör Makinesi (DVM) kullanımıyla sınıflandırma yapmaktadır. Önerilen sistemde RGB verileri yerine görsel poz verileri kullanılmasıyla arka plan çeşitliliğine karşı doğruluk ve sağlamlıkta önemli iyileştirmeler sağlandığı gösterilmiştir. Bu sistem BosphorusSign22k-genel ve LSA64 veri kümelerinde işaretçiden bağımsız değerlendirmelerde %94,52 ve %98,53 test doğruluğu elde etmiştir. İkinci çalışma, izole İDT görevi için yenilikçi bir yaklaşım sunmaktadır, bu yaklaşım poz verilerini, bu verilerden türetilen Hareket Tarihçesi Görüntüleri (HTG) ile entegre etmeye odaklanır. Araştırma, vücut, el ve yüz pozlarından elde edilen uzamsal bilgileri işaretin zamansal dinamiklerini yansıtan üç kanallı HTG verileriyle bütünleştirir. Özellikle, geliştirilen parmak pozu tabanlı HTG özelliği, İDT'deki mevcut yaklaşımlara göre parmak hareketlerinin ve jestlerin nüanslarını daha başarılı bir şekilde yakalamaktadır. Bu özellik, işaret dilinin zengin detaylarını daha doğru bir şekilde işleyerek sistemin doğruluğunu ve güvenilirliğini artırmaktadır. Ek olarak, doğrusal enterpolasyon kullanılarak eksik poz verilerinin tamamlanması genel model performansını iyileştirmiştir. Rastgele Sızdıran Düzeltilmiş Doğrusal Birim (RReLU) ile güçlendirilmiş ResNet-18 modeli temelinde elde edilen özelliklerin birleşimi ve DVM ile sınıflandırma yoluyla manuel ve manuel olmayan özellikler arasındaki etkileşim başarıyla ele alınmıştır. Bu entegre yöntem, BosphorusSign22k-genel, BosphorusSign22k, LSA64 ve GSL veri kümelerinde yapılan deneylerde sırasıyla %96,94, %94,87, %98,68 ve %95,14 doğruluk elde ederek mevcut metodolojilere kıyasla rekabetçi ve üstün sonuçlar göstermiştir. Üçüncü çalışma, işaret dili tanımada parmakların özelliklerine ve konfigürasyonlarına odaklanarak yenilikçi bir, çok kanallı yaklaşım sunmaktadır. Ayrı kanallarda işlenen görsel parmak pozu verilerine dayanan bu yaklaşım, parmak hareketlerinin detaylı analizini sağlamak üzere tasarlanmıştır. Önerilen Çok-Kanallı MobileNetV2 modeli, parmaklara dair çok kanallı verileri kullanarak işaret dili tanıma sürecinde yüksek doğruluk ve hassasiyet sunmaktadır. Çalışma ayrıca, poz verilerinden elde edilen vücut ve yüz bilgilerinin işlenmesiyle, işaret dilinin manuel olmayan özelliklerini de entegre etmektedir. Önerilen sistem, BosphorusSign22k-genel, BosphorusSign22k, LSA64 ve GSL veri kümeleri üzerinde sırasıyla %97,15, %95,13, %98,93 ve %95,37 gibi kayda değer doğruluk oranları elde etmiştir. Bu sonuçlar, önerilen yöntemin genellenebilirliğini ve uyarlanabilirliğini vurgulayarak, işaret dili tanıma literatüründeki mevcut çalışmalara göre rekabet üstünlüğünü kanıtlamaktadır. Bu tez, işaret dili tanıma teknolojilerindeki yenilikçi yaklaşımların, işaret dilinin zenginliğini ve ince ayrıntılarını daha doğru bir şekilde yakalayarak iletişim engellerini azaltma potansiyeline işaret etmektedir. Her üç çalışma da farklı veri kümelerinde yüksek doğruluk oranları elde ederek, pratik uygulamalarda İDT sistemlerinin etkinliğini ve güvenilirliğini artırmıştır.Article Citation - WoS: 2Citation - Scopus: 2Isolated Sign Language Recognition Through Integrating Pose Data and Motion History Images(Peerj Inc, 2024) Akdağ, Ali; Baykan, Ömer KaanThis article presents an innovative approach for the task of isolated sign language recognition (SLR); this approach centers on the integration of pose data with motion history images (MHIs) derived from these data. Our research combines spatial information obtained from body, hand, and face poses with the comprehensive details provided by three-channel MHI data concerning the temporal dynamics of the sign. Particularly, our developed finger pose-based MHI (FP-MHI) feature significantly enhances the recognition success, capturing the nuances of finger movements and gestures, unlike existing approaches in SLR. This feature improves the accuracy and reliability of SLR systems by more accurately capturing the fine details and richness of sign language. Additionally, we enhance the overall model accuracy by predicting missing pose data through linear interpolation. Our study, based on the randomized leaky rectified linear unit (RReLU) enhanced ResNet-18 model, successfully handles the interaction between manual and non-manual features through the fusion of extracted features and classification with a support vector machine (SVM). This innovative integration demonstrates competitive and superior results compared to current methodologies in the field of SLR across various datasets, including BosphorusSign22k-general, BosphorusSign22k, LSA64, and GSL, in our experiments.

