Spark
-
[Spark] fold, reduce 알아보기 ( RDD, Action, Aggregation )Spark 2024. 1. 19. 23:10
- 목차 들어가며.이번 글에서는 Spark 의 Action Operation 중의 하나인 fold 에 대해서 알아보려고 합니다.fold 는 reduce, aggregate 와 함께 대표적으로 사용되는 Action 함수 중의 하나입니다.fold 함수는 reduce 함수와 매우 유사한 점이 많습니다. 그만큼 직관적으로 이해하기도 편한 함수이죠.하지만 Spark 는 Partition 이라는 개념과 더불어 fold 함수를 완벽하게 이해하기 어려운 부분이 존재하는데요.이번 글에서 fold 함수에 대해서 자세히 알아보는 시간을 가지겠습니다. Collection 자료구조에서의 reduce.먼저 일반적인 프로그래밍 언어에서 제공되는 Collection 모듈에서 사용되는 reduce 에 대해서 알아보겠습니다.제가 Col..
-
[SparkSQL] CSV DataFrameReader 알아보기Spark 2024. 1. 15. 07:02
- 목차 들어가며. 이번 글에서는 SparkSQL 의 csv DataFrameReader 와 관련된 여러가지 옵션들에 대해서 알아보는 시간을 가지려고 합니다. CSV 파일은 흔히 사용되는 파일 형식임에도 불구하고 데이터 타입에 대한 정확한 규격이 존재하지 않습니다. 공백으로 표현되는 빈 값, Null or None 데이터의 처리, 숫자 데이터와 날짜 데이터의 변환 등 SparkSQL 의 CSV Reader 옵션들을 살펴보고 차질없이 활용할 수 있도록 정리해보겠습니다. 저는 SparkSQL 2.4 버전 이후의 라이브러리를 사용하구요. Kaggle 의 Insurance 와 관련된 CSV 형식의 데이터를 토대로 CSV DataFrameReader 에 대해서 알아보도록 하겠습니다. https://www.kagg..
-
[SparkML] StandardScaler 알아보기 ( 표준화, Feature Scaling )Spark/SparkML 2024. 1. 8. 21:07
- 목차 소개. 이번 소개글에서 SparkML 의 StandardScaler 에 대해서 알아보려고 합니다. StandardScaler 는 데이터셋의 feature 를 표준화 관점에서 변경하는 것을 의미합니다. 그럼 표준화는 무엇일까요 ? 그래서 먼저 Standardization 인 표준화에 대해서 간단히 알아보겠습니다. 표준화는 데이터의 분포를 변경하는 행위입니다. 평균을 0 으로, 그리고 분산을 1 로 설정하여 데이터의 분포를 변경합니다. 즉, 표준정규분포를 갖도록 재조정됩니다. 표준화의 공식은 아래와 같습니다. $$ X^{'}=\frac{X-\mu }{\sigma} $$ $\sigma$ 은 표준편차를 의미하고, $\mu$ 는 평균을 의미합니다. Feature Scaling 은 왜 필요할까?. 표준화 ..
-
[Spark] Spark lit 알아보기Spark 2023. 12. 24. 21:29
- 목차 소개.프로그래밍 언어에서 literal 이라는 표현법이 존재합니다.literal 은 어떠한 자료형을 표현하는 정석적인 방법이 아니라 손쉽게 표현할 수 있는 방법을 의미하며,이는 프로그래밍 언어의 컴파일러 또는 인터프리터에 의해서 허용되는 형태입니다. 예를 들어, 여러가지 프로그래밍 언어에서 배열을 표현하는 방법에 대해서 얘기해보겠습니다.javascript 에서 배열을 생성하기 위해 정석적인 방법은 아래와 같이 Array 클래스를 사용하는 것입니다.Array(1,2,3,4,5) 하지만 아래와 같은 형식도 제공되죠.[1,2,3,4,5] python 에서 배열을 생성하는 방법은 아래와 같이 제공되며,list([1, 2, 3, 4, 5])[1, 2, 3, 4, 5]ran..
-
Spark Stage 알아보기Spark 2023. 12. 23. 20:26
- 목차 소개. Spark Program 은 작성된 RDD 의 또는 DataFrame 의 데이터 처리 흐름을 기반으로 실행 계획을 생성합니다. 실행 계획 또한 Logical Execution Plan 과 Physical Execution Plan 으로 나뉘는데요. Task 와 Stage 는 Physical Execution Plan 에 해당합니다. 이번 글에서 Spark 의 Task 와 Stage 는 무엇이며, 어떻게 실행되는지에 대해서 상세히 알아보려고 합니다. Task. Task 는 Spark 의 가장 작은 실행 단위입니다. Task 는 Executor 에서 실행이 되구요. Executor 는 단순히 JVM Process 라고 생각하시면 됩니다. 그리고 Task 는 Executor 에서 실행되는 JV..
-
[Spark] Unresolved Logical Plan 알아보기Spark 2023. 12. 20. 07:31
- 목차 들어가며.Spark 는 RDD 가 아닌 DataFrame 또는 SQL 를 활용하여 연산을 수행할 때에 자동적으로 Query Optimization 이 수행됩니다.흔히 Predicate Pushdown, Column Pruning, Constant Folding 등의 유명한 최적화 방식들이 있는데요.관련한 최적화 방식들은 다른 글에서 설명할 수 있도록 해보겠습니다.돌아와서 Spark 는 Query Optimization 이 적용되며, 이를 책임지는 Spark 의 내부 요소를 Catalyst Optimizer 라고 부릅니다.즉, Catalyst Optimizer 에 의해서 SQL Query 또는 DataFrame 연산은 최적화됩니다.아래 이미지는 Catalyst Optimizer 에 의해서 수행되는..
-
Spark RDD Lineage 알아보기Spark 2023. 12. 16. 07:43
- 목차 소개. RDD 는 Resillient Distributed Dataset 의 약자입니다. RDD 는 Spark 의 기본적인 데이터 단위인데요. RDD 의 Resillience 를 구현하기 위해서 사용되는 Concept 이 RDD Lineage 입니다. 이번 글에서는 RDD Lineage 에 대해서 알아보려고 합니다. RDD Lineage. 아래 이미지는 Spark UI 의 DAG Visualization 입니다. RDD Lineage 가 아래 이미지와 같은 DAG 형식으로 표현될 수 있습니다. DAG 그래프 표현될 수 있는 이유는 RDD Lineage 가 선형적인 연결고리를 가지기 때문인데요. Source RDD -> Transformed RDD1 -> Transformed RDD2 -> .....
-
Spark RDD Storage 알아보기 (Persist, Cache)Spark 2023. 12. 15. 06:40
- 목차 소개. RDD 는 persist 와 cache Function 을 가집니다. persist, cache 기능을 통해서 RDD 의 중간 상태를 Storage 에 임시 저장을 할 수 있습니다. 예를 들어, RDD = SparkContext.parellelize([1,2,3,4,5]) 와 같은 CollectionRDD 가 존재할 때에 RDD.persist(), RDD.cache() 와 같은 형태로 RDD 의 데이터 상태를 저장할 수 있습니다. 그리고 저장소의 유형 또한 설정이 가능한데요. Memory, Disk 로 설정이 가능합니다. 이번 글에서는 RDD 의 Persist 와 Storage 에 대해서 알아보려고 합니다. persist and cache. RDD 는 persist 와 cache func..
-
[Spark] parallelize 알아보기Spark 2023. 12. 15. 06:39
parallelize 란 ?이번 글에서는 Spark RDD 를 생성하는 기본적인 함수인 parallelize 에 대해서 알아보도록 하겠습니다.parallelize 는 SparkContext 객체가 제공하는 RDD 를 생성하는 함수입니다.parallelize 함수를 통해서 메모리 상에 존재하는 Local Variable 를 RDD 로 변환할 수 있습니다.parallelize 함수의 활용법은 간단하기 때문에 예시를 통해서 자세히 알아보도록 하겠습니다. 먼저 아래와 같이 SparkContext 를 생성합니다.저는 Local Spark Cluster 를 생성하여 이를 활용하였습니다.그리고 먼저 Python List 변수를 생성하고 이는 RDD 로 변환합니다.그럼 아래의 출력 결과와 같이 RDD 가 생성됩니다. ..
-
Spark DataFrame 알아보기Spark 2023. 12. 15. 06:39
- 목차 소개. Spark 의 DataFrame 은 Pandas 의 DataFrame 처럼 행과 열을 가지는 데이터를 표현하는 방식입니다. 즉, Matrix 를 표현할 수 있는 Spark 의 자료구조입니다. 뿐만 아니라 DataFrame 은 Distributed Collection of Data 라고 불립니다. Matrix 를 표현하는 범위를 넘어서 분산처리가 가능한 자료구조입니다. 정리하면, DataFrame 을 분산처리가 가능한 Spark 의 데이터 단위입니다. 이번 글에서 Spark 의 DataFrame 에 대해서 자세히 일아보려고 합니다. DataFrame 이란. DataFrame 에 대해서 알아보기 이전에 Spark 의 자료구조들에 대해서 알아보려고 합니다. - Row - Seq - Datase..