ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [pandas] get_dummies 알아보기 ( One Hot Encoding )
    Python 2023. 2. 6. 18:09
    728x90
    반응형

    - 목차

     

    키워드.

    • - One Hot Encoding
    • - get_dummies

     

    들어가며.

    Pandas 에서 간편히 One Hot Encoding 을 수행하는 함수가 존재합니다.

    함수 이름은 get_dummies 이구요.

    데이터 전처리 단계에서 범주형 데이터를 get_dummies 함수를 활용하여 손쉽게 One Hot Encoding 이 가능합니다.

     

     

    get_dummies 사용해보기.

    get_dummies 함수의 사용법은 아래와 같습니다.

    pd.get_dummies 와 같은 형식으로 함수를 호출할 수 있구요.

    인자로써 One Hot Encoding 을 적용한 DataFrame 의 Series 를 입력할 수 있습니다.

    import pandas as pd 
    
    df = pd.DataFrame({
        "name" : ["Andy", "Bob", "Cindy"]
    })
    pd.get_dummies(df.name)

     

    pd.get_dummies 함수는 기본적으로 bool 타입의 DataFrame 을 반환합니다.

    만약 1 과 0 으로 이루어진 Binary 형식의 결과를 출력하고 싶다면, astype 함수를 적용합니다.

     

    import pandas as pd
    import numpy as np 
    
    df = pd.DataFrame({
        "name" : ["Andy", "Bob", "Cindy"]
    })
    pd.get_dummies(df.name).astype(np.int32)

     

    기존의 DataFrame 과 Dummy DataFrame 을 병합하는 방법은 아래와 같습니다.

    encoded_df = pd.get_dummies(df.name).astype(np.int32)
    df[encoded_df.columns] = encoded_df

     

    반응형
Designed by Tistory.