BigData/Parquet
-
[Parquet] Dictionary Encoding 알아보기BigData/Parquet 2024. 3. 24. 10:26
- 목차 들어가며. 이번 글에서는 Parquet 의 Dictionary Encoding 에 대해서 알아보려고 합니다. Dictionary Encoding 은 큰 길이의 String 을 Number 와 같은 숫자로 표현할 수 있는 방식입니다. 예를 들어, "Python", "Java" "Golang" 과 같인 3개의 텍스트를 Unicode 로써 표현하게 되면 문자의 길이만큼 4byte * length 의 용량을 차지하게 되겠죠 ? 하지만 이를 나열 순서에 따라 0, 1, 2 로 표현하게 되면 데이터의 압축이 가능해집니다. 이러한 방식으로 문자열을 bit 레벨로 압축시켜 표현하는 방식을 Dictionary Encoding 이라고 부릅니다. Encoding ? 인코딩이란 원본 데이터를 변형하는 것을 의미합니다..
-
[Apache Arrow] Pyarrow Table 알아보기BigData/Parquet 2024. 3. 8. 22:42
- 목차 들어가며. 이번 글에서는 Pyarrow 의 Table 에 대해서 알아보려고 합니다. 여러 예제와 함께 설명을 진행할 예정이구요. python 3.10 버전과 pyarrow 16.0.0 버전을 사용합니다. 먼저 사용할 데이터를 간단히 소개드립니다. Kaggle 에서 제공되는 Movie Industry 데이터셋을 사용하구요. 영화와 관련된 메타데이터들이 csv 파일 형식으로 제공됩니다. https://www.kaggle.com/datasets/danielgrijalvas/movies?select=movies.csv Movie Industry Four decades of movies www.kaggle.com Table 생성하기. kaggle 사이트로부터 내려받은 csv 파일은 /tmp/movie.c..
-
Parquet Reader 알아보기BigData/Parquet 2023. 12. 8. 05:37
- 목차 함께 보면 좋은 글. https://westlife0615.tistory.com/50 Parquet 알아보기 - 목차 관련된 글 https://westlife0615.tistory.com/333 Avro Serialization 알아보기. - 목차 관련된 글 https://westlife0615.tistory.com/332 Avro File 알아보기 - 목차 소개. Avro 는 두가지 기능을 제공합니다. 첫번째는 직 westlife0615.tistory.com 소개. Parquet Reader 들이 어떠한 방식으로 Parquet 파일을 읽어들이는지 자세히 살펴보려고 합니다. Apache Arrow 기반의 라이브러리들은 많은 부분이 추상화되어 있어, Parquet 파일을 읽어들이는 방식이 명료하게..
-
Parquet 알아보기BigData/Parquet 2023. 1. 5. 01:34
- 목차 관련된 글 https://westlife0615.tistory.com/333 Avro Serialization 알아보기. - 목차 관련된 글 https://westlife0615.tistory.com/332 Avro File 알아보기 - 목차 소개. Avro 는 두가지 기능을 제공합니다. 첫번째는 직렬화 기능입니다. Avro 는 Serialization Framework 로서 직렬화와 역직렬화를 westlife0615.tistory.com https://westlife0615.tistory.com/445 Parquet Reader 알아보기 - 목차 소개. Parquet Reader 들이 어떠한 방식으로 Parquet 파일을 읽어들이는지 자세히 살펴보려고 합니다. Apache Arrow 기반의 라..