ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [Spark] parallelize 알아보기
    Spark 2023. 12. 15. 06:39
    728x90
    반응형

     

    parallelize 란 ?

    이번 글에서는 Spark RDD 를 생성하는 기본적인 함수인 parallelize 에 대해서 알아보도록 하겠습니다.

    parallelize 는 SparkContext 객체가 제공하는 RDD 를 생성하는 함수입니다.

    parallelize 함수를 통해서 메모리 상에 존재하는 Local Variable 를 RDD 로 변환할 수 있습니다.

    parallelize 함수의 활용법은 간단하기 때문에 예시를 통해서 자세히 알아보도록 하겠습니다.

     

    먼저 아래와 같이 SparkContext 를 생성합니다.

    저는 Local Spark Cluster 를 생성하여 이를 활용하였습니다.

    그리고 먼저 Python List 변수를 생성하고 이는 RDD 로 변환합니다.

    그럼 아래의 출력 결과와 같이 RDD 가 생성됩니다.

     

    from pyspark import SparkConf, SparkContext
    
    conf = (SparkConf().setMaster("local[*]")
            .setAppName("test-parallelize")
            .set('spark.driver.bindAddress', '0.0.0.0'))
    
    sc = SparkContext(conf=conf)
    
    local_list = list(range(10))
    print(f'local_list: {local_list}')
    rdd = sc.parallelize(local_list).map(lambda x: x * 2)
    output = rdd.collect()
    print('\n')
    print(f'rdd : {output}')
    local_list: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
                                                                                    
    
    rdd : [0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

     

     

    반응형

    'Spark' 카테고리의 다른 글

    Spark RDD Lineage 알아보기  (0) 2023.12.16
    Spark RDD Storage 알아보기 (Persist, Cache)  (0) 2023.12.15
    Spark DataFrame 알아보기  (0) 2023.12.15
    Helm 으로 Spark 구축하기  (0) 2023.12.15
    Spark Driver Program 알아보기  (0) 2023.12.06
Designed by Tistory.