-
[Spark] RDD 로 숫자 처리하기Spark 2023. 1. 19. 06:29728x90반응형
- 목차
소개.
개인적인 스파크 학습을 위하여 RDD 처리에 대한 여러가지 예시를 작성해보려고 합니다.
java version 11, spark 3.2 버전을 사용할 예정입니다.
build.gradle 에 해당 버전의 spark-core 모듈을 설치합니다.
implementation 'org.apache.spark:spark-core_2.12:3.2.0'
Number 처리하기.
아래 코드는 Spark 로 숫자를 처리하는 간단한 예시입니다.
input 데이터인 1,2,3,4,5 라는 List 를 1씩 증가시키는 예시입니다.
package org.example; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import java.util.Arrays; import java.util.List; public class ReadTextFile { public static void main(String[] args) { SparkConf conf = new SparkConf().setAppName("test-spark") .setMaster("local[*]") .set("spark.driver.bindAddress", "127.0.0.1") .set("spark.driver.port", "9010"); JavaSparkContext context = new JavaSparkContext(conf); List<Integer> source = Arrays.asList(1,2,3,4,5); JavaRDD<Integer> sourceRDD = context.parallelize(source); JavaRDD<Integer> mapperRDD = sourceRDD.map(x -> x + 1); List<Integer> result = mapperRDD.collect(); System.out.println("###" + result); context.stop(); } }
< 출력 >
>> ###[2, 3, 4, 5, 6]
반응형'Spark' 카테고리의 다른 글
Helm 으로 Spark 구축하기 (0) 2023.12.15 Spark Driver Program 알아보기 (0) 2023.12.06 [Spark] SparkSQL CSV 파일 Aggregation 하기 (0) 2023.10.03 [Spark] Spark Lazy Evaluation 알아보기 (0) 2023.05.22 [Spark] Docker 로 Spark Cluster 구현하기 ( Standalone Mode ) (0) 2022.07.18