Büyük Veri ve Hadoop
Loading...
Date
2022
Authors
Baş, Emine
Journal Title
Journal ISSN
Volume Title
Publisher
Open Access Color
OpenAIRE Downloads
OpenAIRE Views
Abstract
Günümüzde teknolojinin yaygın bir şekilde kullanılmasıyla artan bir very (büyük veri) oluşmuştur. Büyük veri, geleneksel veri işleme uygulamalarının üstesinden gelemeyeceği kadar büyük veya karmaşık veri setlerini analiz etme ve bu veri setlerinden sistematik olarak bilgi elde etmeyi sağlayacak yöntemler arayan bilişim bilimleri sahasıdır. Bir diğer deyişle Big Data, çoğunluğu yapılandırılmamış olan ve sonu gelmez bir şekilde birikmeye devam eden, geleneksel ilişki bazlı veri tabanı teknikleri yardımıyla çözülemeyecek kadar yapısallıktan uzak, çok çok büyük, çok ham ve üstel bir şekilde büyümekte olan veri setleridir. Büyük very çeşitlilik, hız ve hacim olmak üzere üç ana bileşeni ile karakterize edilen geleneksel veri analizinden devrim niteliğinde bir adım gerektirir. Bu verinin şekli itibariyle klasik yöntemlerle işlenmesi zordur. Çeşitlilik (Variety), büyük verileri gerçekten büyük hale getirir. Verinin hacmi veya boyutu (Volume) artık terabayt ve petabayttan daha büyüktür. Hız (Velocity) sadece büyük veri için değil, tüm süreçler için gereklidir. Zaman sınırlı süreçler için, değerini en üst düzeye çıkarmak için kuruluşa akarken büyük veri kullanılmalıdır. Verilerin büyük ölçeği ve yükselişi, geleneksel depolama ve analiz tekniklerini geride bırakır. Araştırmacılar bu verinin kolay bir şekilde işlenmesi için bir arayış içine girmiştir. Büyük veri, MapReduce gibi mimarileri destekleyen yepyeni bir endüstri yaratmıştır. Hadoop bu büyük verinin sınıflandırılması ve işlenmesi konusunda çıkmış bir yazılımdır. Hadoop JAVA programlama dili ile geliştirilmiş popüler, açık kaynaklı bir Apache projesidir. Üretilme amacı ise büyük verilerin daha hızlı işlenmesidir. Temel olarak yazılımı dağıtık dosya sistemi olarak tanımlayabiliriz. Bu dağıtık dosya sistemi HDFS yani Hadoop Distributed File System olarak adlandırılır. Hadoop bileşenleri şunlardır: HDFS, MapReduce, HBase, Pig, Hive ve ZooKeeper dir. Bu bildiride büyük veri ve hadoop konusunda bir araştırma sunulmuştur.
Today, with the widespread use of technology, an increasing amount of data (big data) has occurred. Big data is the field of information science that seeks methods to analyze and systematically extract information from data sets that are too large or complex to be handled by traditional data processing applications. In other words, Big Data is a very large, very raw and exponentially growing dataset, most of which is unstructured and continues to accumulate endlessly, too unstructured to be solved with the help of traditional relationship-based database techniques. Large data requires a revolutionary step forward from traditional data analysis, characterized by its three main components: diversity, speed, and volume. This data is difficult to process with classical methods due to its shape. Variety makes big data really big. The volume or size (Volume) of data is now larger than terabytes and petabytes. Velocity is essential for all processes, not just big data. For time-limited processes, big data should be used as it flows into the organization to maximize its value. The massive scale and rise of data outstrips traditional storage and analysis techniques. Researchers have been in a quest for an easy processing of this data. Big data has created a whole new industry supporting architectures like MapReduce. Hadoop is a software for classification and processing of this big data. Hadoop is a popular, open source Apache project developed with the JAVA programming language. Its purpose is to process big data faster. Basically, we can define software as a distributed file system. This distributed file system is called HDFS or Hadoop Distributed File System. Hadoop components are HDFS, MapReduce, HBase, Pig, Hive and ZooKeeper. In this paper, a research on big data and hadoop is presented.
Today, with the widespread use of technology, an increasing amount of data (big data) has occurred. Big data is the field of information science that seeks methods to analyze and systematically extract information from data sets that are too large or complex to be handled by traditional data processing applications. In other words, Big Data is a very large, very raw and exponentially growing dataset, most of which is unstructured and continues to accumulate endlessly, too unstructured to be solved with the help of traditional relationship-based database techniques. Large data requires a revolutionary step forward from traditional data analysis, characterized by its three main components: diversity, speed, and volume. This data is difficult to process with classical methods due to its shape. Variety makes big data really big. The volume or size (Volume) of data is now larger than terabytes and petabytes. Velocity is essential for all processes, not just big data. For time-limited processes, big data should be used as it flows into the organization to maximize its value. The massive scale and rise of data outstrips traditional storage and analysis techniques. Researchers have been in a quest for an easy processing of this data. Big data has created a whole new industry supporting architectures like MapReduce. Hadoop is a software for classification and processing of this big data. Hadoop is a popular, open source Apache project developed with the JAVA programming language. Its purpose is to process big data faster. Basically, we can define software as a distributed file system. This distributed file system is called HDFS or Hadoop Distributed File System. Hadoop components are HDFS, MapReduce, HBase, Pig, Hive and ZooKeeper. In this paper, a research on big data and hadoop is presented.
Description
ORCID
Keywords
Hadoop, Büyük veri, Dağıtık sistemler, Hadoop, Big Data, Distributed systems
Turkish CoHE Thesis Center URL
Fields of Science
Citation
WoS Q
N/A
Scopus Q
N/A
Source
Volume
Issue
Start Page
124
End Page
131
Collections
Downloads
4
checked on Feb 03, 2026
