분류 전체보기
-
[Pandas] Boolean Indexing 알아보기Python 2024. 4. 15. 06:24
- 목차 키워드.Boolean Mask.Selection. 들어가며.Pandas DataFrame 에서 특정 Cell, Row, Column, Subset 를 획득하는 여러가지 방식이 존재합니다.그렇기 때문에 DataFrame 을 능숙하게 다루기 위해서 익숙해져야할 여러 요소들이 있습니다.이번 글에서는 DataFrame 에서 Subset 를 추출하는 여러가지 방식들에 대해서 알아보도록 하겠습니다. DataFrame Subset 추출하기.DataFrame 의 Subset 를 추출하기 위해서 사용되는 몇가지 방식을 소개합니다.1. Python List2. Series3. DataFrame세가지 방식이 존재합니다. 먼저 DataFrame 을 생성합니다.Student 와 관련된 DataFrame 을 간단히 생..
-
[Pandas] DataFrame pd.merge 알아보기 (Join)Python 2024. 4. 9. 06:40
- 목차 키워드.JoinDataFramehowonleft_index & right_index 들어가며.이번 글에서는 두 DataFrame 을 Join 하는 merge Function 에 대해서 알아보려고 합니다. 기본적인 사용법.pd.merge 의 기본적인 사용법은 아래와 같습니다.SQL 의 Join 쿼리의 사용법과 유사합니다.두개의 DataFrame 이 있고 서로 공유하는 하나의 Column 이 있다면 공통의 Column 을 기준으로 pd.merge 가 동작합니다.import pandas as pdleft_data = [["Andy", 32],["Bob", 12],["Chris", 44],["Daniel", 25]]right_data = [["Andy", "Seoul"],["Bob", "LA"],["C..
-
[Python] yield 알아보기 ( generator )Python 2024. 4. 6. 10:36
- 목차 들어가며. 이번 글에서는 파이썬의 yield 구문에 대해서 알아보려고 합니다. yield 는 파이썬의 함수 내부에서 사용되는 구문입니다. 즉, 함수 외부에서는 사용할 수 없으며 그 성격이 return 키워드와 유사합니다. yield 가 사용된 함수는 generator 라고 불리게 되는데요. generator 는 iterator 를 손쉽게 만들어주는 파이썬의 내장된 기능입니다. 이번 들에서는 yield 와 generator 그리고 이와 관련된 여러 예시들을 살펴볼 예정입니다. yield. yield 의 사전적인 의미는 "산출하다." 입니다. 그리고 산출이란 무언가를 생산하고 그 결과를 외부로 제공한다는 의미를 가지죠. yield 는 함수에서만 사용되는 키워드인데요. yield 가 사용된 함수는 g..
-
[torchvision] RGB to Grayscale ImageAI-ML 2024. 3. 31. 15:14
- 목차 Grayscale .이번 글에서는 torchvision 모듈을 사용하여 RGB Channel 의 이미지를 Grayscale 이미지로 변형하는 방법에 대해 알아보겠습니다.Grayscale 이란 RGB 채널을 가지는 이미지를 하나의 Channel 을 가지도록 변형하는 스케일링 방식입니다.일반적으로 하나의 이미지는 아래와 같이 3개의 채널로 구성됩니다.각 채널은 Red, Blue, Green 으로 표현되는데요. 이러한 색상의 요소들이 모여서 하나의 이미지의 색상을 결정합니다. Grayscale 은 RGB 채널의 컬러를 Black - White 범위를 가지는 Grayscale 로 컬러를 변형합니다.그 결과로써 아래의 강아지 이미지는 RGB 컬러에서 흑백 색상으로 변경됩니다. 아래의 코드는 위의 사진의 ..
-
[scikit-learn] LabelEncoder 알아보기AI-ML 2024. 3. 29. 06:50
- 목차 키워드.CategoricalOrdinalEncoderLabelfitinverse_transform 들어가며.이번 글에서는 scikit-learn 의 LabelEncoder 에 대해서 알아보도록 하겠습니다.LabelEncoder 는 Categorical Data 를 수치화하는데에 활용됩니다.예를 들어, True 또는 False 값을 가지는 Boolean Data 는 1 또는 0 으로 표현될 수 있습니다.또한 "매우 아니다", "아니다", "조금 아니다", "적당하다", "조금 그렇다", "그렇다", "매우 그렇다" 와 같이 7가지의 상태를 가지는 설문 조사를 가정할 때, 7단계의 상태를 1 부터 7 까지의 수치로 표현할 수 있습니다.그 외, ["남성", "여성"] 과 같은 성별 데이터나 ["서울시..
-
[Flink] Checkpoint Alignment 알아보기Flink 2024. 3. 28. 06:39
- 목차 함께 보면 좋은 글. https://westlife0615.tistory.com/572 Flink Checkpoint 알아보기 - 목차 들어가며. Flink 의 Checkpoint 는 Flink Data Stream 이 어떻게 처리되고 있는지에 대한 상태를 저장하는 스냅샷입니다. Mapper, Filter, Window Operator 등이 끊임없이 흘러가는 Event 들을 처리합니다. Filte westlife0615.tistory.com 들어가며. 이번 글에서는 Checkpoint Alignment 에 대해서 알아보려고 합니다. Checkpoint Alignment 를 이해하기 이전에 Checkpoint Barrier 그리고 Checkpoint 가 수행되는 방법에 대해서 먼저 알아보겠습니다...
-
[MySQL] foreign_key_checks 알아보기Database/MySQL 2024. 3. 26. 07:29
- 목차 들어가며. 이번 글에서는 MySQL 의 테이블 간 외래키 제약 (Foreign Key Constraints) 을 On/Off 할 수 있는 설정인 foreign_key_checks 에 대해서 알아보려고 합니다. On and Off foreign_key_checks. MySQL 실행하기. 먼저 실습을 위해서 도커를 활용한 MySQL 서버를 실행시켜보겠습니다. docker run -d --name mysql -p 3306:3306 -e MYSQL_ROOT_PASSWORD=1234 mysql:8.0.23 그리고 Foreign Key 관계의 테이블 2개를 생성해보겠습니다. docker exec -it mysql mysql -uroot -p1234 create database test; use test; ..
-
[Flink] Operator Chaining 알아보기Flink 2024. 3. 25. 06:07
- 목차 들어가며. 이번 글에서는 Flink Operator Chaining 에 대해서 알아보려고 합니다. Flink 는 여러 Operator 들을 조합하여 데이터 처리 어플리케이션을 구성합니다. Flink Operator 의 예로 Filter, Map, Window, Join 등의 여러 Operator 들이 존재하며, 이들이 연결되어 하나의 어플리케이션을 만듭니다. 아래의 예시처럼 말이죠. Map -> Map -> Sink 로 구성된 Flink DataStream 의 그래프 > Operator Chaining 은 여러 Operator 들을 하나의 Task 로 묶는 기법을 의미합니다. 아래 예시는 Source -> Map1 을 하나의 Task 로 묶고, Map2 -> Sink 를 하..
-
[Parquet] Dictionary Encoding 알아보기BigData/Parquet 2024. 3. 24. 10:26
- 목차 들어가며. 이번 글에서는 Parquet 의 Dictionary Encoding 에 대해서 알아보려고 합니다. Dictionary Encoding 은 큰 길이의 String 을 Number 와 같은 숫자로 표현할 수 있는 방식입니다. 예를 들어, "Python", "Java" "Golang" 과 같인 3개의 텍스트를 Unicode 로써 표현하게 되면 문자의 길이만큼 4byte * length 의 용량을 차지하게 되겠죠 ? 하지만 이를 나열 순서에 따라 0, 1, 2 로 표현하게 되면 데이터의 압축이 가능해집니다. 이러한 방식으로 문자열을 bit 레벨로 압축시켜 표현하는 방식을 Dictionary Encoding 이라고 부릅니다. Encoding ? 인코딩이란 원본 데이터를 변형하는 것을 의미합니다..
-
[Pandas] Correlation 알아보기 ( DataFrame corr )AI-ML 2024. 3. 24. 10:26
- 목차 키워드.Correlation. 들어가며.이번 글에서는 Pandas 의 Correlation 을 계산할 수 있는 corr 함수에 대해서 알아보도록 하겠습니다.Correlation 은 두 Feature 의 상관관계를 -1 부터 1 까지의 값으로 표현합니다.예를 들어, Correlation 을 통해서 키와 몸무게의 상관관계를 표현할 수 있는데요.일반적으로 큰 키에 비례해서 몸무게가 증가하는 경향을 보입니다. 위와 같은 키와 몸무게와 같이 서로의 값이 증가하는 상관관계를 가지면 이들의 상관관계를 양의 값을 가집니다.height 와 weight 는 서로 0.73 의 상관관계를 가집니다. 이처럼 Regression 문제에 접근할 때에 Correlation 을 유용하게 사용됩니다. 아래의 Dataset..