Python
-
[Pandas] Series CRUD 알아보기Python 2024. 2. 21. 07:30
- 목차 들어가며. Pandas Series 자료구조의 간단한 데이터 CRUD 에 대해서 알아보도록 하겠습니다. Create. 먼저 Series 를 생성하는 방법에 대해서 알아보도록 하겠습니다. Series 는 간단히 Python List 자료구조를 통해서 생성이 가능합니다. 아래 예시처럼 숫자 타입의 리스트를 준비하여 pandas 의 Series 함수를 통해서 Series 를 생성할 수 있습니다. Series 함수의 data 인자를 통해서 리스트를 입력하고, name 인자를 통해서 Series 의 이름을 설정할 수 있습니다. import pandas as pd numeric_ls = [1, 2, 3, 4, 5, 6, 7, 8, 9] sr = pd.Series(data=numeric_ls, name="n..
-
[python] datetime 여러 활용법 알아보기 ( datetime, timezone, truncate)Python 2024. 1. 10. 16:58
- 목차 들어가며.이번 글에서는 Python 의 Datetime 모듈의 여러가지 사용 사례들을 작성해보려고 합니다.Python 개발을 하다보면 Datetime 모듈을 활용해야하는 경우가 많습니다.저의 경우에는 매번 "Timezone" 을 어떻게 변경할지, 오늘의 시작/종료 시각으로 어떻게 변경할지 등에 대해서 항상 헷갈리곤 합니다.그래서 이번 블로그에서 여러가지 케이스와 Datetime 응용하는 사례에 대해서 설명해보려고 합니다. 여러가지 사례들.python 의 Datetime 모듈의 활용법은 아래와 같습니다.datetime 라이브러리에서 datetime 모듈을 import 하는 구조로 보통 활용됩니다.from datetime import datetime, timezone 가장 흔히 사용되는 함수는 n..
-
Seaborn heatmap 그리기Python 2024. 1. 7. 17:02
- 목차 Heapmap 그리기. seaborn 을 활용하여 heatmap 을 그리기 위해서 Matrix 형태의 데이터가 필요합니다. 그러기 위해서 Pandas DataFrame 또는 2D-Array 형태의 데이터가 요구됩니다. import seaborn as sns import matplotlib.pyplot as plt # Sample data (replace this with your actual data) data = [ [1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12] ] # Create a heatmap sns.heatmap(data, annot=True, cmap="YlGnBu", fmt="d") # Display the plot plt.show() Axis 값 설..
-
Seaborn countplot 그리기Python 2024. 1. 7. 06:09
- 목차 countplot 그리기. countplot 은 입력 데이터셋의 Categorical 데이터의 갯수를 셈하여 시각화하는 함수입니다. 아래의 케이스에서 A, B, C 데이터가 존재하구요. 각각의 데이터의 갯수를 BarChart 로 제공합니다. import seaborn as sns import matplotlib.pyplot as plt data = { 'Category': ['A', 'B', 'A', 'A', 'B', 'C', 'C', 'A', 'B', 'C', 'A', 'A', 'B', 'B', 'C', 'C', 'C'] } import pandas as pd df = pd.DataFrame(data) sns.set(style="darkgrid") plt.figure(figsize=(8, 6)..
-
[Pandas] rolling function 알아보기Python 2023. 12. 3. 16:33
- 목차 키워드.- pandas - Moving Average- Rolling Average 들어가며.Pandas 는 Moving Average 또는 Rolling Average 를 계산할 수 있도록 Window 기능이 제공됩니다.이는 Pandas DataFrame 의 rolling 이라는 함수로 구현되어 있습니다.SQL 뿐만 아니라 Spark, Flink 등의 여러 데이터 처리 프레임워크에서도 Window 기능이 제공되는데,Window 는 정해진 크기의 데이터들을 한데 묶어 어떠한 계산을 하고 그 결과값을 특정 Row 에 저장하게 됩니다.하나의 예로써, Moving Average 를 설명해보죠.Moving Average 는 전체 데이터셋에서 정해진 크기의 데이터들의 부분적인 평균을 의미합니다.예를 들어..
-
[numpy] axis 사용법 ( min, max, sum ) 알아보기Python 2023. 9. 6. 13:45
- 목차 들어가며.numpy 의 ndarray 는 min, max, sum 과 같은 내장함수들이 존재합니다.그리고 이 함수들은 axis 라는 인자를 가지는데요.axis 인자를 활용하여 특정한 Dimension 의 연산을 수행할 수 있습니다.예를 들어, 칼럼별 최대값 또는 Row 별 Sum, Count 등을 계산할 수 있죠.하지만 axis 인자에 어떤 숫자를 넣어야 하는지 항상 헷갈리는 문제가 있어서 이번 글에서 정리를 하려고 합니다. 먼저 바쁘신 분들을 위해서 기본적인 원리의 설명 이전에 다양한 예시와 결론을 말씀드리려고 합니다. 2차원 Matrix.Sum & axis=0.2차원 Matrix 에서 sum 함수와 axis=0 연산을 수행해봅니다.아래와 같이 axis 가 0 인 경우에는 아래와 같이 연산이 ..
-
[Pandas] stack 사용하여 Pivot Table 만들기 ( pivot_table )Python 2023. 7. 10. 11:13
- 목차 키워드.pandasstack, unstackpivot 들어가며.이번 글에서는 Pandas DataFrame 의 stack, unstack 함수를 활용하여 Pivot Table 을 생성하는 방법에 대해서 설명하려고 합니다.간단히 stack 과 unstack 에 관한 설명과 더불어 pivot table 을 생성하는 응용 과정에 대해 이야기하도록 하겠습니다. stack.Pandas 의 stack 함수는 모든 Column 들을 index 위치로 변경할 수 있습니다.먼저 간단한 예시를 통해서 stack 의 쓰임새를 보여드리겠습니다.stack 함수를 활용할 DataFrame 을 하나 생성하구요.import pandas as pd names = ["Andy", "Bob", "Chris", "Daniel"]c..
-
[pandas] get_dummies 알아보기 ( One Hot Encoding )Python 2023. 2. 6. 18:09
- 목차 키워드.- One Hot Encoding- get_dummies 들어가며.Pandas 에서 간편히 One Hot Encoding 을 수행하는 함수가 존재합니다.함수 이름은 get_dummies 이구요.데이터 전처리 단계에서 범주형 데이터를 get_dummies 함수를 활용하여 손쉽게 One Hot Encoding 이 가능합니다. get_dummies 사용해보기.get_dummies 함수의 사용법은 아래와 같습니다.pd.get_dummies 와 같은 형식으로 함수를 호출할 수 있구요.인자로써 One Hot Encoding 을 적용한 DataFrame 의 Series 를 입력할 수 있습니다.import pandas as pd df = pd.DataFrame({ "name" : ["Andy",..
-
Matplotlib Scatter 사용법 알아보기Python 2023. 1. 21. 15:07
- 목차 소개. Matplotlib 라이브러리의 Scatter 의 사용법에 대해서 작성하려고 합니다. Scatter 는 이차평면에서 여러 데이터 포인트들을 나타내는 방식입니다. 입력값은 x, y 좌표 정보가 사용됩니다. 간단한 예시. import matplotlib.pyplot as plt # Sample data x = [1, 2, 3, 4, 5] y = [2, 4, 1, 3, 5] # Create a scatter plot plt.scatter(x, y, label='Scatter Plot') # Add labels and a title plt.xlabel('X-axis') plt.ylabel('Y-axis') plt.title('Scatter Plot Example') # Add a legend p..
-
[pandas] to_datetime 함수 알아보기Python 2022. 12. 20. 07:34
- 목차 to_datetime.Pandas 의 DataFrame 은 datetime 타입을 지원합니다.하지만 명시적으로 datetime 타입을 지정하지 않으면 DataFrame 또는 Series 내부적으로 object 타입으로 지정하게 됩니다.예를 들어, 아래의 Kaggle 의 날씨 데이터를 read_csv 함수를 통해서 DataFrame 을 생성할 때에 "date" 칼럼은 object 타입으로 지정되죠.import pandas as pdurl = ("https://storage.googleapis.com/kagglesdsdata/datasets/312121/636393/DailyDelhiClimateTest.csv" "?X-Goog-Algorithm=GOOG4-RSA-SHA256" ..