Spark
-
[Spark] Spark Cluster 를 구축하기 ( Docker )Spark 2024. 5. 17. 22:31
- 목차 들어가며.이번 글에서는 Spark Cluster 를 구현하는 방법에 대해서 알아보려고 합니다.기본적으로 Docker Container 를 활용하여 Spark Cluster 를 구현하며,Spark Cluster 를 실행하기 위한 Dockerfile 과 Docker Compose 등의 상세한 내용들을 다룰 예정입니다. Spark Cluster 구축하기.Dockerfile 구성하기.가능한 Docker Hub 에 존재하는 Spark Docker Image 를 활용하려고 검색해보았지만, 개인적으로 마음에 드는 이미지가 존재하지 않아서 아래와 같이 ubuntu Base Image 로부터 Docker Image 를 생성합니다.아래 Dockerfile 의 내용은 Ubuntu Base Image 와 Hadoo..
-
[Spark] Window 알아보기 ( lag, lead, sum )Spark 2024. 5. 15. 07:51
- 목차 들어가며.Spark 의 Window 기능을 통해서 부분적인 Aggregation 연산을 수행할 수 있습니다.일반적인 Aggregation 연산은 전체 데이터셋을 대상으로 수행됩니다.일반적으로 사용하는 sum, avg, var, min/max 등은 모든 데이터들을 대상으로 합계, 평균, 분산, 최소/최대값을 계산합니다.그래서 N 개의 데이터를 대상으로 N 개보다 작은 수의 결과가 출력됩니다.예를 들어, 아래의 연산처럼 100 개의 데이터를 1개의 결과로 출력됩니다.spark = SparkSession.builder.config(conf=conf).getOrCreate()df = spark.range(100)print(f"""sum : {df.select(F.sum(F.col("id"))).coll..
-
[Spark] Spark 로 Web File Reader 구현하기 ( SparkFiles )Spark 2024. 3. 18. 07:04
- 목차 들어가며.Spark 를 활용하여 http 프로토콜로 호스팅되는 웹 파일을 다운로드해야하는 경우가 존재합니다.일반적인 Spark 의 File Reader 를 통해서 웹파일을 다운로드하는 것을 불가능합니다.이 과정에서 SparkFiles 모듈을 사용하며, 이는 여러 이점이 존재합니다.첫번째 이점은 Spark Application 의 메모리보다 큰 용량의 파일을 손쉽게 읽어들일 수 있습니다.Http Streaming 방식으로 웹파일을 읽어들이는 수고로움을 덜 수 있습니다.두번째 이점은 기존의 Spark 프로그래밍 패턴을 사용할 수 있습니다.외부의 모듈을 활용하게 되면, 외부 모듈의 사용법에 따라 프로그래밍을 수행해야합니다.하지만 SparkFiles 는 Spark 의 내장 모듈로써 Spark 의 프로그..
-
[Spark] Row 알아보기Spark 2024. 3. 3. 12:33
- 목차 들어가며. 이번 글에서는 Spark 의 Row 에 대해서 알아보려고 합니다. Row 는 DataFrame 을 구성하는 개별적인 데이터 레코드를 의미합니다. 그래서 Row 들의 모음이 곧 DataFrame 이라고 볼 수 있죠. DataFrame 을 생성하는 형태는 아래와 같습니다. SparkSession 의 createDataFrame 함수를 사용하여 DataFrame 을 만들게 되는데요. 이때에 필수적인 Arguments 가 Row 와 Schema 입니다. # row 생성. rows = [Row(name="Andy", age=32), Row(name="Bob", age=43)] # schema 생성. schema = StructType([ StructField("name", StringType(..
-
[Spark] approxCountDistinct 알아보기Spark 2024. 2. 22. 20:39
- 목차 들어가며.이번 글에서는 SparkSQL 의 approxCountDistinct 함수에 대해 알아보려고 합니다.approxCountDistinct 은 특정 칼럼의 값들이 몇개의 범주로 구성되어있는지를 파악하는 함수입니다.즉, Categorical Data 의 종류 갯수를 파악합니다.approxCountDistinct 는 이름에서 유추할 수 있듯이, 대략적인 결과를 획득하기 위한 함수인데요.큰 규모의 데이터셋에 대해서 약간의 오차를 허용하고 결과 획득 시간을 단축하기 위한 목적을 가집니다. 사용할 데이터.사용할 데이터는 Kaggle 의 Bank Marketing 데이터를 사용합니다.아래 링크에서 다운로드받으실 수 있습니다.https://www.kaggle.com/datasets/henriqueyam..
-
[Spark] Logical Plan 알아보기 1 (Catalyst Optimizer)Spark 2024. 1. 28. 10:32
- 목차 들어가며. 이번 글에서는 SparkSQL API 로 구성된 SQL 쿼리와 DataFrame 의 Transformation 들이 어떠한 방식으로 최적화되는지를 살펴보려고 합니다. SparkSQL API 로 구성한 일련의 코드들은 Action 에 의해서 실행이 될때에 아래와 같은 단계를 거쳐 최적화됩니다. 이 과정에서 큰 역할을 수행하는 구성요소가 바로 Catalyst Optimizer 이구요. Unresolved Logical Plan 부터 Physical Plans 를 생성하는 과정에 관여합니다. 이번 글에서는 Logical Plan 과 관련된 용어들과 최적화 과정에 대해서 이야기해보려고 합니다. JSON, Parquet 파일 생성하기. 먼저 Data Source 로 사용할 JSON, Parqu..
-
[Spark] JDBC DataFrameReader 알아보기 (MySQL)Spark 2024. 1. 28. 07:39
- 목차 들어가며. JDBC Connector 를 활용한 DataFrameReader 에 대한 글을 작성하려고 합니다. Docker 로 MySQL 실행하기. 먼저 Docker 를 활용하여 MySQL 컨테이너를 실행해보도록 하겠습니다. 간단한 실행만으로 실습에 필요한 데이터를 생성할 수 있도록 Command 위주로 작성하겠습니다. Docker Run MySQL. docker run -d --name mysql -p 3306:3306 -e MYSQL_ROOT_PASSWORD=1234 mysql:8.0 Docker Exec MySQL Container. docker exec -it mysql sh Create Table. mysql -uroot -p1234; use mysql; create table user..
-
[Spark] S3 DataFrameReader 구현하기 (s3a)Spark 2024. 1. 28. 07:39
- 목차 Hadoop-AWS module. Spark 에서 S3 Object 들을 읽어들이기 위해서 s3a 프로토콜을 사용해야합니다. s3a 는 BigData Processing Workload 를 처리하기 위해서 개발된 S3 의 새로운 기능이구요. BigData Processing Workload 라 함은 분산저장된 여러 Blocks 들을 효율적으로 조회하고 처리함을 뜻합니다. s3a 은 S3 의 Object File 들을 Hadoop 의 분산 저장된 여러 Block 들을 조회하는 것과 같이 효율적인 Object 조회를 돕는 프로토콜 또는 파일시스템이구요. 아래 이미지와 같이 여러 Object 들을 병렬/동시적으로 조회하여 데이터를 처리할 수 있습니다. Hadoop-AWS 모듈은 s3a 를 처리하기 위..
-
[Spark] groupBy, RelationalGroupedDataset 알아보기Spark 2024. 1. 26. 23:30
- 목차 들어가며. 이번 글에서는 SparkSQL 의 Group By Transformation 에 대해서 상세히 알아보려고 합니다. 사용할 데이터는 Kaggle 의 Bank Customer Chunk Prediction 데이터를 사용하며, Dataset 의 다운로드 링크는 아래와 같습니다. https://www.kaggle.com/datasets/shubhammeshram579/bank-customer-churn-prediction Bank Customer Churn Prediction Predicting customer churn in banking industry using machine learning. www.kaggle.com 데이터 살펴보기. 이번에 다루어 볼 데이터셋은 은행 이탈 고객에 대..
-
[Spark] Union 알아보기Spark 2024. 1. 26. 23:30
- 목차 들어가며.Union Transformation 은 두개 이상의 DataFrame 을 하나로 합칩니다.DataFrame 을 합친다는 관점에서 Union 은 Join Transformation 과 유사합니다.하지만 Join Transformation 과의 차이점은 Row 기반으로 Combining 을 수행하는지 , Colum 기반으로 수행하는지에 대한 차이가 있습니다. Union Transformation 의 중요한 점은 Row 관점에서의 Dataset 변형이라는 점입니다.일반적으로 데이터의 변형은 Schema 가 변경된다던지, Data 의 value 의 Update 등의 뜻합니다.Union 은 데이터 그 자체의 변형은 없지만, Dataset 관점에서 바라볼 때, Dataset 의..