Spark
-
[Spark] RDD 로 숫자 처리하기Spark 2023. 1. 19. 06:29
- 목차 소개. 개인적인 스파크 학습을 위하여 RDD 처리에 대한 여러가지 예시를 작성해보려고 합니다. java version 11, spark 3.2 버전을 사용할 예정입니다. build.gradle 에 해당 버전의 spark-core 모듈을 설치합니다. implementation 'org.apache.spark:spark-core_2.12:3.2.0' Number 처리하기. 아래 코드는 Spark 로 숫자를 처리하는 간단한 예시입니다. input 데이터인 1,2,3,4,5 라는 List 를 1씩 증가시키는 예시입니다. package org.example; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; impor..
-
[Spark] Docker 로 Spark Cluster 구현하기 ( Standalone Mode )Spark 2022. 7. 18. 04:40
- 목차 소개. Docker 로 Spark Cluster 를 실행시키는 방법에 대해서 알아보고자 합니다. 이러한 방식으로 Spark Master Node 와 여러개의 Worker Node 들을 구동시키는 방식을 Standalone Mode 라고 합니다. 이번 글에서는 Standalone 방식의 Deployment 를 설명하며, Spark 클러스터 환경에서 여러가지 테스트를 진행하기 위해서 2개 이상의 Worker 를 실행시키는 것이 목표입니다. Docker Yaml. 먼저 docker-compose.yaml 파일을 생성합니다. 저는 /tmp/ 디렉토리 하위에 해당 yaml 파일을 생성하였습니다. 이미지는 bitnami/spark:3.2.4 이미지를 사용합니다. < spark-docker-compose.y..
-
[SparkML] Linear Regression 구현하기 ( Kaggle )Spark/SparkML 2021. 12. 5. 21:43
- 목차 소개. 아래 링크는 kaggle 의 Conf. Interval for Inferences 의 Linear Regression 관련 문제입니다. https://www.kaggle.com/code/abdulazizdusbabaev/conf-interval-for-inferences/notebook Conf. Interval for Inferences Explore and run machine learning code with Kaggle Notebooks | Using data from Linear Regression www.kaggle.com SparkML 을 기반으로 Linear Regression 을 구현한 예시코드입니다. import os from pyspark.ml.feature impor..
-
[SparkML] VectorAssembler 알아보기Spark/SparkML 2021. 12. 4. 16:57
- 목차 소개. SparkML 에서 VectorAssembler 는 feature 들을 하나의 Vector 로 만들어주는 모듈입니다. Vector 와 Assemble 은 이름 그대로 feature 들을 모아 하나의 Vector 를 만듭니다. Assemble 이 "모으다", "집합시키다", "조합하다" 뜻을 가지듯 말이죠. VectorAssembler 를 통해서 DataFrame 의 Column 들은 하나의 Vector 됩니다. 아래 예시는 Boolean, Integer, Double 타입의 칼럼 3개를 하나의 Vector 로 만드는 예시입니다. from pyspark.ml.feature import VectorAssembler from pyspark.sql import SparkSession from p..