Spark/SparkML
-
[SparkML] StandardScaler 알아보기 ( 표준화, Feature Scaling )Spark/SparkML 2024. 1. 8. 21:07
- 목차 소개. 이번 소개글에서 SparkML 의 StandardScaler 에 대해서 알아보려고 합니다. StandardScaler 는 데이터셋의 feature 를 표준화 관점에서 변경하는 것을 의미합니다. 그럼 표준화는 무엇일까요 ? 그래서 먼저 Standardization 인 표준화에 대해서 간단히 알아보겠습니다. 표준화는 데이터의 분포를 변경하는 행위입니다. 평균을 0 으로, 그리고 분산을 1 로 설정하여 데이터의 분포를 변경합니다. 즉, 표준정규분포를 갖도록 재조정됩니다. 표준화의 공식은 아래와 같습니다. $$ X^{'}=\frac{X-\mu }{\sigma} $$ $\sigma$ 은 표준편차를 의미하고, $\mu$ 는 평균을 의미합니다. Feature Scaling 은 왜 필요할까?. 표준화 ..
-
[SparkML] Kaggle EDA + Regression 구현하기Spark/SparkML 2023. 2. 24. 06:17
- 목차 소개. 아래 주소는 Kaggle EDA + Regression 문제를 소개하는 페이지의 웹 링크입니다. https://www.kaggle.com/code/hely333/eda-regression EDA + Regression Explore and run machine learning code with Kaggle Notebooks | Using data from Medical Cost Personal Datasets www.kaggle.com 위 문제에서는 메디컬 데이터가 제공됩니다. 메디컬 데이터는 환자의 상태 정보와 의료비용 데이터로 구성됩니다. 목표는 환자의 상태 데이터를 기반으로 의료비용을 예측하는 Regression 모델을 구축하는 것입니다. 데이터 분석하기. import os from..
-
[SparkML] Kaggle Stars Classification 구현하기 (Logistic Regression)Spark/SparkML 2023. 2. 21. 15:36
- 목차 소개. 아래 링크는 Kaggle 의 Stars Classification 관련한 웹 링크입니다. https://www.kaggle.com/code/ybifoundation/stars-classification/notebook Stars Classification Explore and run machine learning code with Kaggle Notebooks | Using data from No attached data sources www.kaggle.com 별의 특성들로부터 항성을 분류하는 Classification 을 구현해야합니다. 항성분류법은 O,B,A,F,G,K,M 등급으로 분류되는 표현법이구요. 별의 크기, 밝기, 온도 등의 feature 들로부터 항성을 분류합니다. 제공되..
-
[SparkML] Linear Regression 구현하기 ( Kaggle )Spark/SparkML 2021. 12. 5. 21:43
- 목차 소개. 아래 링크는 kaggle 의 Conf. Interval for Inferences 의 Linear Regression 관련 문제입니다. https://www.kaggle.com/code/abdulazizdusbabaev/conf-interval-for-inferences/notebook Conf. Interval for Inferences Explore and run machine learning code with Kaggle Notebooks | Using data from Linear Regression www.kaggle.com SparkML 을 기반으로 Linear Regression 을 구현한 예시코드입니다. import os from pyspark.ml.feature impor..
-
[SparkML] VectorAssembler 알아보기Spark/SparkML 2021. 12. 4. 16:57
- 목차 소개. SparkML 에서 VectorAssembler 는 feature 들을 하나의 Vector 로 만들어주는 모듈입니다. Vector 와 Assemble 은 이름 그대로 feature 들을 모아 하나의 Vector 를 만듭니다. Assemble 이 "모으다", "집합시키다", "조합하다" 뜻을 가지듯 말이죠. VectorAssembler 를 통해서 DataFrame 의 Column 들은 하나의 Vector 됩니다. 아래 예시는 Boolean, Integer, Double 타입의 칼럼 3개를 하나의 Vector 로 만드는 예시입니다. from pyspark.ml.feature import VectorAssembler from pyspark.sql import SparkSession from p..