BigData
-
Avro File 알아보기BigData 2023. 10. 4. 10:52
- 목차 관련된 글 https://westlife0615.tistory.com/333 Avro Serialization 알아보기. - 목차 관련된 글 https://westlife0615.tistory.com/332 Avro File 알아보기 - 목차 소개. Avro 는 두가지 기능을 제공합니다. 첫번째는 직렬화 기능입니다. Avro 는 Serialization Framework 로서 직렬화와 역직렬화를 westlife0615.tistory.com 소개. Avro 는 두가지 기능을 제공합니다. 첫번째는 직렬화 기능입니다. Avro 는 Serialization Framework 로서 직렬화와 역직렬화를 위한 방식을 제공합니다. 두번째는 File Format 으로 사용됩니다. Avro File 은 .avro..
-
RabbitMQ 에 대해서BigData 2023. 4. 9. 19:51
개요 RabbitMQ 는 흔히 말하는 메시지 브로커의 한 종류입니다. 메시지 브로커는 여러 서비스 사이에서 메시지를 중재하는 역할을 수행하는데요. 메시지라고 불리는 의미있는 데이터를 생산자로부터 소비자로 전송해주는 역할을 수행합니다. 그리고 단순한 메시지 전송을 넘어서 브로드캐스팅이라던지, 특정 기간 동안 메시지를 보관해준다던지하는 추가적인 역할 또한 수행합니다. 메시지란 RabbitMQ 에서 메시지란 단순히 의미있는 정보 (데이터) 를 의미합니다. 단순히 읽을 수 있는 정보를 담은 text message 일 수 있고, 원격의 서버나 프로세스에게 명령어를 전달하는 용도일 수 있습니다. IoT 기기들에서 발생하는 센서 정보들 또는 여러 웹 로그와 같이 일일이 다루기 힘든 많은 양의 데이터들이 RabbitM..
-
apache spark 란BigData 2023. 1. 12. 07:20
스파크란 아파치 스파크는 대용량의 데이터를 분산처리하는 엔진입니다. 빅데이터의 시대에서 대용량의 데이터를 처리하기 위한 안정적인 분산 시스템과 고속도의 데이터 처리 시간을 보장하기 위하여 스파크는 등장하게 되었습니다. 스파크는 안정 + 고속 + 분산 처리 등의 소목표를 달성해야하는 데이터 처리 부분에 집중하며, 데이터의 저장과 관련된 영역은 다른 스토리지 엔진이난 하둡의 hdfs 같은 영역에서 담당하게 됩니다. Driver Program main 함수를 포함하는 스파크의 실질적인 프로그램입니다. from pyspark.sql import SparkSession # Create SparkSession spark = SparkSession.builder \ .master("local[1]") \ .appNa..
-
hdfs (hadoop) 에 대해서BigData 2023. 1. 11. 21:34
하둡의 간단한 정의는 다음과 같습니다. 분산된 환경에서 데이터를 저장하고 관리하고, 처리할 수 있도록 도와주는 프레임워크입니다. 그래서 하둡은 크게 두가지로 분류됩니다. 1. 데이터를 저장하는 관점에서 hadoop distributed file system 2. 데이터를 처리하는 관점에서 MapReduce 두가지로 나누어 생각할 수 있습니다. 이번 글에서는 하둡의 두가지 측면 중 hdfs 에 대해서 이야기할 예정입니다. Hadoop Distributed File System FAT, ext, union file system 등 운영체제 및 환경에서 사용하던 파일 시스템들과 hdfs 는 하나의 차이가 있습니다. 기존의 파일 시스템은 파일의 관리를 하나의 물리적인 디스크로 한정했던 것과 달리 hdfs 는 분..
-
Parquet 알아보기BigData/Parquet 2023. 1. 5. 01:34
- 목차 관련된 글 https://westlife0615.tistory.com/333 Avro Serialization 알아보기. - 목차 관련된 글 https://westlife0615.tistory.com/332 Avro File 알아보기 - 목차 소개. Avro 는 두가지 기능을 제공합니다. 첫번째는 직렬화 기능입니다. Avro 는 Serialization Framework 로서 직렬화와 역직렬화를 westlife0615.tistory.com https://westlife0615.tistory.com/445 Parquet Reader 알아보기 - 목차 소개. Parquet Reader 들이 어떠한 방식으로 Parquet 파일을 읽어들이는지 자세히 살펴보려고 합니다. Apache Arrow 기반의 라..
-
RocksDB 알아보기BigData 2021. 12. 15. 12:24
- 목차 소개. RocksDB 에 대해서 알아보려고 합니다. RocksDB 는 대표적인 Key-Value Storage 이자 Embedded Storage 입니다. 빅데이터를 처리하는 여러 어플리케이션에서 주로 사용하는 내부 스토리지인데요. 대표적으로 Apache Flink 가 있습니다. RocksDB 는 File 기반으로 데이터를 저장하고 조회하지만, 특유의 특성으로 인해 빠른 속도의 IO 가 가능합니다. MemTable 의 Write Buffer 와 SSTable 의 빠른 조회를 기반으로 RocksDB는 높은 퍼포먼스를 보입니다. 이어지는 내용에서 자세히 알아보겠습니다. RocksDB Structure. MemTable. MemTable 은 Memory Table 의 약자로, Rocksdb 의 In-..