Please use this identifier to cite or link to this item: https://hdl.handle.net/20.500.13091/5249
Title: Doğal dil işleme ve derin öğrenme yöntemleri kullanılarak finansal verilerin analizi
Other Titles: Analysis of financial data using natural language processing and deep learning methods
Authors: Kaçar, Mustafa Sami̇
Advisors: Kodaz, Hali̇fe
Yumuşak, Semi̇h
Keywords: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol
Computer Engineering and Computer Science and Control
Publisher: Konya Teknik Üniversitesi
Abstract: Son yıllarda, dünyadaki hemen her alanda dijital veri üretiminin her geçen gün büyük bir hızla artması, karar alma aşamasındaki kullanımını önemli ölçüde artmıştır. Bu rüzgâr, finans alanında da kendini ciddi bir şekilde göstermiştir. Ancak, geleneksel istatistiksel yöntemler, ham verinin kontrolsüz genişlemesi ve karmaşıklığı nedeniyle artık işlevini günden güne yitirmektedir. Bu nedenle, finansal verilerin temizlenmesi ve analiz edilmesi için modern makine öğrenimi yöntemlerinin kullanılması son derece önemlidir. Bu tez çalışmasında, şirketlerin paylaşmış oldukları yıllık ve dönemsel finansal bilgilerin yer aldığı raporlardan yeni veri setleri üreten ve üretilen setleri makine öğrenmesi yöntemleriyle analiz eden yenilikçi yaklaşımlar sunulmuştur. Çalışma kapsamında, finansal 10K yıllık raporları toplanarak analiz edilebilir veri setlerine dönüştürülmüş ve makine öğrenmesi yöntemleriyle sınıflandırma işlemi gerçekleştirilmiştir. Elde edilen başarılı sonuçlarla (%92 doğruluk değeri), 10K raporlarının veri setine dönüşümü için önemli bir katkı sağlanmıştır. Doğal dil işleme tekniklerinin oldukça karmaşık ve hatalı veriler içeren 10K raporlarına uygulanması da yine tez kapsamında gerçekleştirilerek, benzersiz yeni yaklaşımlar sunulmuştur. 10Q çeyrek raporlarının analizini mümkün kılan bir hibrit yöntem, tez kapsamında gerçekleştirilen çalışmalarla üretilmiştir. Yöntemle, şirketlerin metinsel içeriğe sahip çeyrek raporları, Doc2Vec ve K Means kümeleme algoritmaları kullanılarak verimli veri setlerine dönüştürülmüştür. Şirketlerin sonraki finansal çeyrekteki fiyat güçlerini gösteren ve bir ile on arasında değerler alan 'PriceRank' metriği, düşük, orta ve yüksek olacak şekilde üçe ayrılarak, veri setine sınıf değerleri olarak eklenmiştir. Daha sonra, derin öğrenme yöntemi olan Evrişimsel Sinir Ağı ile gerçekleştirilen sınıflandırma işlemiyle başarılı sonuçlar (%84 doğruluk değeri) üretilmiştir. Son olarak, Doc2Vec ve K Means algoritmalarıyla üretilen veri setine, veri üzerindeki hem kısa hem de uzun vadeli bağlantıları daha iyi ortaya çıkarabilmek ve özellik çıkarımı adımını iyileştirmek için Tek Boyutlu Evrişimsel Sinir Ağı ve Uzun Kısa Süreli Bellek algoritmalarından meydana gelen hibrit bir yöntem uygulanmıştır. Elde edilen başarılı sonuçlar (%88 doğruluk değeri), bu yeni hibrit yöntemin, veri analizinde geleneksel derin öğrenmesi yöntemlerinden daha iyi sonuçlar üretebileceğini göstermiştir.
In recent years, with the rapid increase in digital data production at worldwide, its usage for decision-making has significantly grown. This trend has also made its mark in the finance. However, traditional statistical methods are no longer effective due to the uncontrolled expansion and complexity of raw data. Therefore, it is crucial to employ modern machine learning methods for cleansing and analyzing financial data. This thesis presents innovative approaches that generate new datasets from annual and periodic financial reports shared by companies and analyze these generated datasets using machine learning techniques. Within the scope of the study, 10K annual reports were collected, transformed into analyzable datasets, and subjected to classification processes using machine learning methods. The successful results obtained (92% accuracy) contribute significantly to the transformation of 10K reports into a dataset. The application of natural language processing techniques to complex and error-prone 10K reports was also performed within the thesis, presenting unique approaches. A hybrid method that enables the analysis of 10Q quarter reports was produced by the studies carried out within the scope of the thesis. With the method, companies' quarterly reports with textual content were transformed into efficient data sets using Doc2Vec and K Means Clustering algorithms. The 'PriceRank' metric, which shows the price power of companies in the next financial quarter and takes values between one and ten, was divided into three groups as low, medium, and high and added to the data set as class values. Later, successful results (84% accuracy) were produced by the classification process with the deep learning method, Convolutional Neural Network. Finally, a hybrid method consisting of 1D Convolutional Neural Network and Long Short-Term Memory algorithms was applied to the data set produced with Doc2Vec and K Means algorithms to better reveal both short- and long-term connections on the data and to improve the feature extraction step. The successful results obtained (88% accuracy) showed that this new hybrid method can produce better results than traditional deep learning methods in data analysis.
URI: https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=weFMBHaUra8rsS5wi2bmHJ6wFlH7D0y0P8AQ-mLPUik8iBa9DheuCgn3feQ_aSyd
https://hdl.handle.net/20.500.13091/5249
Appears in Collections:Tez Koleksiyonu

Show full item record



CORE Recommender

Page view(s)

68
checked on Apr 29, 2024

Google ScholarTM

Check





Items in GCRIS Repository are protected by copyright, with all rights reserved, unless otherwise indicated.