[Spark] parallelize 알아보기

Spark 2023. 12. 15. 06:39

parallelize 란 ?

이번 글에서는 Spark RDD 를 생성하는 기본적인 함수인 parallelize 에 대해서 알아보도록 하겠습니다.

parallelize 는 SparkContext 객체가 제공하는 RDD 를 생성하는 함수입니다.

parallelize 함수를 통해서 메모리 상에 존재하는 Local Variable 를 RDD 로 변환할 수 있습니다.

parallelize 함수의 활용법은 간단하기 때문에 예시를 통해서 자세히 알아보도록 하겠습니다.

먼저 아래와 같이 SparkContext 를 생성합니다.

저는 Local Spark Cluster 를 생성하여 이를 활용하였습니다.

그리고 먼저 Python List 변수를 생성하고 이는 RDD 로 변환합니다.

그럼 아래의 출력 결과와 같이 RDD 가 생성됩니다.

from pyspark import SparkConf, SparkContext

conf = (SparkConf().setMaster("local[*]")
        .setAppName("test-parallelize")
        .set('spark.driver.bindAddress', '0.0.0.0'))

sc = SparkContext(conf=conf)

local_list = list(range(10))
print(f'local_list: {local_list}')
rdd = sc.parallelize(local_list).map(lambda x: x * 2)
output = rdd.collect()
print('\n')
print(f'rdd : {output}')

local_list: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
                                                                                

rdd : [0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

'Spark' 카테고리의 다른 글

Spark RDD Lineage 알아보기 (0)	2023.12.16
Spark RDD Storage 알아보기 (Persist, Cache) (0)	2023.12.15
Spark DataFrame 알아보기 (0)	2023.12.15
Helm 으로 Spark 구축하기 (0)	2023.12.15
Spark Driver Program 알아보기 (0)	2023.12.06

ABOUT ME

코딩수집 코딩수집

parallelize 란 ?

'Spark' 카테고리의 다른 글

티스토리툴바

ABOUT ME

parallelize 란 ?

'Spark' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바