분류 전체보기
-
RocksDB Architecture 알아보기 (LSM-tree)Database/RocksDB 2024. 1. 10. 07:45
- 목차 관련된 글. https://westlife0615.tistory.com/566 RocksDB Architecture 알아보기 (LSM-tree) - 목차 들어가며. RocksDB 는 LSM-Tree 형식의 구조를 취합니다. LSM-Tree 를 설명하기 위해서 MemTable, SSTable, WAL Log, Compaction 등의 배경지식이 필요한데요. 이번 글에서 RocksDB 를 구성하는 요소들에 대해 westlife0615.tistory.com https://westlife0615.tistory.com/567 RocksDB Column Family 알아보기 - 목차 들어가며. RocksDB 의 Column Family 는 SQL 의 Table, NoSQL 의 Collection 과 유사합..
-
[ClickHouse] Block 알아보기Database/Clickhouse 2024. 1. 10. 06:46
- 목차 들어가며. 이번 글에서는 ClickHouse 의 Block 의 개념에 대해서 알아보려고 합니다. ClickHouse MergeTree 엔진의 Table 을 생성하고, 해당 테이블에 데이터를 추가하게 되면 Parts 가 생성됩니다. ClickHouse Parts 의 개념은 아래의 페이지에서 알 수 있는데요. Parts 에 대해서 간단한 설명을 해보려고 합니다. https://clickhouse.com/docs/en/operations/system-tables/parts parts | ClickHouse Docs system_tables-parts} clickhouse.com Parts 란 ? https://westlife0615.tistory.com/737 [ClickHouse] Parts & P..
-
Kubernetes Deployment 알아보기Kubernetes 2024. 1. 9. 17:27
- 목차 함께 보면 좋은 글. https://westlife0615.tistory.com/412 Kubernetes ReplicaSet 알아보기 - 목차. 함께보면 좋은 글. https://westlife0615.tistory.com/210 Kubernetes Pod 이해하기 소개 Pod는 쿠버네티스의 가장 기본적인 구성요소입니다. 컨테이너 환경을 오케스트레이션하는 쿠버네티스 입장에서 westlife0615.tistory.com https://westlife0615.tistory.com/407 KinD 알아보기. - 목차 소개. KinD 는 "카인드" 라고 발음되며, 로컬 머신에서 쿠버네티스를 간편하게 실행할 수 있는 도구입니다. KinD 는 Kubernetes in Docker 의 약자이구요. Dock..
-
[ Kafka Producer ] 불안정한 네트워크에서 데이터 생성하기 ( Acks, Retries )Kafka 2024. 1. 9. 05:22
- 목차 들어가며. 이번 글에서는 카프카 클러스터의 네트워크를 의도적으로 불안정하게 만든 이후에 Kafka Producer 가 어떻게 해야 안정적으로 데이터를 생성할 수 있는지 알아보려고 합니다. 아래의 링크는 Docker 를 활용하여 카프카 클러스터를 구축하는 내용이 적힌 페이지의 주소입니다. https://westlife0615.tistory.com/474 Docker 로 Kafka Cluster 구축해보기. - 목차 소개. 저는 로컬 환경에서 카프카 관련 테스트를 진행하는 경우가 많이 생기더군요. 그래서 docker-compose 를 활용하여 Kafka, ZooKeeper 클러스터를 구축하는 내용을 작성하려고 합니다. docker-com westlife0615.tistory.com 실험. 아래의 명..
-
[Kafka-Streams] mapValues 알아보기Kafka 2024. 1. 9. 05:22
- 목차 들어가며. 이번 글에서는 kafka streams API 의 mapValues 의 기능에 대해서 알아보려고 합니다. mapValues API 는 kafka streams 의 Stateless 한 데이터 변형을 제공하는 기능입니다. 이전 상태와 무관하가 현재 처리하는 데이터의 상태와 변형에 집중합니다. 아래 링크는 Docker 로 Kafka Cluster 를 간단히 구축하는 내용을 적은 웹사이트의 링크입니다. https://westlife0615.tistory.com/474 Docker 로 Kafka Cluster 구축해보기. - 목차 소개. 저는 로컬 환경에서 카프카 관련 테스트를 진행하는 경우가 많이 생기더군요. 그래서 docker-compose 를 활용하여 Kafka, ZooKeeper 클러..
-
[SparkML] StandardScaler 알아보기 ( 표준화, Feature Scaling )Spark/SparkML 2024. 1. 8. 21:07
- 목차 소개. 이번 소개글에서 SparkML 의 StandardScaler 에 대해서 알아보려고 합니다. StandardScaler 는 데이터셋의 feature 를 표준화 관점에서 변경하는 것을 의미합니다. 그럼 표준화는 무엇일까요 ? 그래서 먼저 Standardization 인 표준화에 대해서 간단히 알아보겠습니다. 표준화는 데이터의 분포를 변경하는 행위입니다. 평균을 0 으로, 그리고 분산을 1 로 설정하여 데이터의 분포를 변경합니다. 즉, 표준정규분포를 갖도록 재조정됩니다. 표준화의 공식은 아래와 같습니다. $$ X^{'}=\frac{X-\mu }{\sigma} $$ $\sigma$ 은 표준편차를 의미하고, $\mu$ 는 평균을 의미합니다. Feature Scaling 은 왜 필요할까?. 표준화 ..
-
[Kafka-Connect] S3 Sink Connector 따라해보기 1Kafka 2024. 1. 8. 21:07
- 목차 들어가며. 이번 글에서는 Kafka Connect 의 S3 Sink 를 구현해보려고 합니다. 사용할 데이터는 Kaggle User Behavior - Advertisement 데이터를 사용할 예정이구요. 아래 링크에서 해당 데이터를 내려받으실 수 있습니다. https://www.kaggle.com/code/srolka/user-behavior-advertisement/input?select=advertising.csv User Behavior - Advertisement Explore and run machine learning code with Kaggle Notebooks | Using data from Advertisement www.kaggle.com 사용할 advertisement cs..
-
Kubernetes PersistentVolumeClaims (PVC) 알아보기Kubernetes 2024. 1. 8. 06:49
- 목차 함께 보면 좋은 글. https://westlife0615.tistory.com/221 Kubernetes Ephemeral Volume 소개 어플리케이션이 다루는 데이터나 파일의 성격에 따라서 저장소의 종류가 두가지로 나뉩니다. 영구적이어야하는가? 일회성이어도되는가? 영구적인 저장소를 필요로하는 어플리케이션의 westlife0615.tistory.com 들어가며. 쿠버네티스는 Pod 가 데이터를 저장하는 방식을 크게 두 부류로 나누었습니다. 하나는 Ephemeral Volume 이고, 나머지 하나는 Persistent Volume 입니다. Ephemeral Volume 은 Pod 와 라이프사이크을 함께하는 볼륨인데요. Pod 가 Node 의 파일시스템 일부를 임시적으로 사용하는 형태입니다. P..
-
Seaborn heatmap 그리기Python 2024. 1. 7. 17:02
- 목차 Heapmap 그리기. seaborn 을 활용하여 heatmap 을 그리기 위해서 Matrix 형태의 데이터가 필요합니다. 그러기 위해서 Pandas DataFrame 또는 2D-Array 형태의 데이터가 요구됩니다. import seaborn as sns import matplotlib.pyplot as plt # Sample data (replace this with your actual data) data = [ [1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12] ] # Create a heatmap sns.heatmap(data, annot=True, cmap="YlGnBu", fmt="d") # Display the plot plt.show() Axis 값 설..
-
Seaborn countplot 그리기Python 2024. 1. 7. 06:09
- 목차 countplot 그리기. countplot 은 입력 데이터셋의 Categorical 데이터의 갯수를 셈하여 시각화하는 함수입니다. 아래의 케이스에서 A, B, C 데이터가 존재하구요. 각각의 데이터의 갯수를 BarChart 로 제공합니다. import seaborn as sns import matplotlib.pyplot as plt data = { 'Category': ['A', 'B', 'A', 'A', 'B', 'C', 'C', 'A', 'B', 'C', 'A', 'A', 'B', 'B', 'C', 'C', 'C'] } import pandas as pd df = pd.DataFrame(data) sns.set(style="darkgrid") plt.figure(figsize=(8, 6)..