전체 글
-
[MySQL] group_concat 함수 알아보기Database/MySQL 2024. 3. 8. 21:54
- 목차 group_concat ?group_concat 함수는 MySQL 의 집계함수 중의 하나입니다.집계함수란 Group By 문장과 함께 쓰여져 나열되는 값들을 하나의 값으로 축소시키는 역할을 합니다.예를 들어서 List -> Item, Vector -> Scalar 와 같은 형식으로 Collection 타입의 값을 Single Item 값으로 변형할 수 있습니다.대표적으로 Max, Sum, Avg, Reduce 등이 존재하죠.Collection 의 여러 값들 중에서 최대, 최소, 평균, 합계 등을 계산하여 하나의 값으로 축소시킵니다. group_concat 은 이러한 Aggregation Function 으로 사용됩니다.동작 방식은 Collection 을 하나의 나열된 String 으로 반환합니다..
-
[Gradle] Java Plugin 알아보기Java/Gradle 2024. 3. 6. 22:33
- 목차 들어가며.Java Plugin 은 Gradle 에서 Java 프로젝트를 빌드하고 관리하는 데 필요한 주요 플러그인입니다.이 플러그인은 Java 애플리케이션을 컴파일하고, JAR 파일을 생성하며, 테스트를 실행하고, 의존성을 관리하는 기능을 제공합니다. Gradle 은 기본적으로 Java 빌드를 간편하게 할 수 있도록 많은 기능을 자동으로 제공하고, 다양한 설정을 통해 빌드 프로세스를 커스터마이징할 수 있습니다. 기본적으로 build.gradle 파일 내부에서 아래와 같이 선언하여 사용합니다.plugins { id 'java'} 그리고 java Block 을 통해서 Java Compile, Build 에 관한 여러가지 설정이 가능합니다. java { sourceCompatibility = ..
-
[Avro] Avro Schema 알아보기BigData 2024. 3. 6. 22:33
- 목차 들어가며.이번 글에서는 Avro Schema 에 대한 다양한 예시들을 살펴볼 예정입니다.Python 과 "avro-python3==1.10.2" 모듈을 사용하여 다양한 데이터셋을 다루어보도록 하겠습니다.전반적인 데이터들은 Kaggle 에서 제공되는 데이터를 활용하도록 하겠습니다. Enum.제한된 갯수를 가지는 Categorical Data 를 대상으로 Enum 타입을 적용할 수 있습니다.예를 들어, 날씨 정보가 ['drizzle' 'rain' 'sun' 'snow' 'fog'] 와 같은 5가지 경우를 가진다고 한다면 Enum 타입을 을 사용할 수 있습니다.아래 Kaggle 의 seattle_weather 데이터셋을 통해서 자세한 내용을 살펴보도록 하겠습니다. https://www.kaggle.c..
-
[Spark] Row 알아보기Spark 2024. 3. 3. 12:33
- 목차 들어가며. 이번 글에서는 Spark 의 Row 에 대해서 알아보려고 합니다. Row 는 DataFrame 을 구성하는 개별적인 데이터 레코드를 의미합니다. 그래서 Row 들의 모음이 곧 DataFrame 이라고 볼 수 있죠. DataFrame 을 생성하는 형태는 아래와 같습니다. SparkSession 의 createDataFrame 함수를 사용하여 DataFrame 을 만들게 되는데요. 이때에 필수적인 Arguments 가 Row 와 Schema 입니다. # row 생성. rows = [Row(name="Andy", age=32), Row(name="Bob", age=43)] # schema 생성. schema = StructType([ StructField("name", StringType(..
-
pytorch - Conv2D 알아보기 ( CNN )AI-ML 2024. 3. 3. 12:15
- 목차 키워드.- CNN- Convolution- conv2d 들어가며.CNN 을 구성하기 위해서 사용되는 nn.Conv2d 의 구체적인 동작 방식에 대해서 알아보려고 합니다. 함께 보면 좋은 글.https://westlife0615.tistory.com/765 Cross Entropy 알아보기- 목차 키워드.- Probability- Surprise- Entropy- Cross Entropy 들어가며.이번 글에서는 Cross Entropy 에 대해서 알아보는 시간을 가지도록 하겠습니다. Cross Entropy 를 이해하기 위해서 몇가지 사전지식들이 요westlife0615.tistory.com Kernel or Filter.CNN 은 원본 이미지와 커널이라고 불리는 작은 크기의 Matrix 를 곱..
-
[Hadoop] yarn-site.xml 알아보기Hadoop 2024. 3. 3. 12:14
- 목차 들어가며. 이번 글에서는 yarn-site.xml 의 설정들에 대해서 알아보도록 하겠습니다. 아래 링크는 yarn-default.xml 의 상세한 설명이 기록되어 있는 공식 문서의 주소입니다. https://hadoop.apache.org/docs/r3.1.0/hadoop-yarn/hadoop-yarn-common/yarn-default.xml yarn-site.xml yarn.nodemanager.resource.memory-mb yarn.nodemanager.resource.memory-mb 는 NodeManager 에서 실행될 컨테이너의 메모리 사이즈를 설정하는 옵션입니다. 만약 yarn.nodemanager.resource.memory-mb 가 -1 로 설정되어 있고 또 다른 옵션인 ya..
-
[torchvision] ToTensor 알아보기AI-ML 2024. 3. 1. 09:08
- 목차 들어가며.이번 글에서는 torchvision 의 To_Tensor 기능에 대해서 알아보도록 하겠습니다.ToTensor 는 torchvision.transforms 모듈 내의 함수입니다.이는 Image 를 Tensor 로 변형할 수 있는 기능을 제공합니다. 예를 들어 임의의 이미지를 To_Tensor 함수를 이용하여 Tensor 로 변형해보도록 하겠습니다.사용할 이미지는 임의의 이미지로 176x197 사이즈의 이미지입니다.import torchvisionfrom PIL import Imageimage = Image.open("../images/sample1.jpg")to_tensor = torchvision.transforms.ToTensor()tensor = to_tensor(image)prin..
-
[ClickHouse] Parts & Partition 알아보기Database/Clickhouse 2024. 2. 29. 07:04
- 목차 들어가며. 이번 글에서는 ClickHouse 의 MergeTree 엔진에서 사용되는 Parts 와 Partition 에 대해서 알아보려고 합니다. Partition 은 MergeTree Table 에 생성되는 데이터의 물리적인 단위입니다. Table 은 Partition 을 기준으로 물리적인 저장 위치가 나뉘어집니다. 그래서 시계열 데이터의 경우에, Partition 을 시간 기준으로 나눌 수 있고, Table 의 데이터를 연월일시에 따라 개별적인 파일로써 관리됩니다. Parts 는 하나의 온전한 Partition 을 만들기 위해서 저장되는 임시 단위입니다. 만약 시간 단위로 Partition 이 나뉘어진다고 가정하겠습니다. 그리고 1분마다 100개의 데이터가 삽입됩니다. 이때 1시간 동안 총 ..
-
[ClickHouse] ReplicatedMergeTree 테이블 Backup 적용하기Database/Clickhouse 2024. 2. 29. 07:04
- 목차 들어가며.이번 글에서는 ReplicatedMergeTree 테이블을 Backup 과 Restore 하는 방법에 대해서 알아보도록 하겠습니다. 먼저 ReplicatedMergeTree 에 대해서 간단히 이야기해보겠습니다.ReplicatedMergeTree 는 최소 2개의 ClickHouse Replica 들이 필요합니다.그리고 이 Replica 들은 새롭게 생성된 Part 파일 정보를 서로 공유하며 Replication 을 수행하게 됩니다.이들이 복제를 위한 수단으로 Zookeeper 를 사용합니다.각 Replica 는 클라이언트의 요청에 의해서 새롭게 생성된 Part 정보를 Zookeeper Znode 에 기록하고,다른 Replica 는 Watcher 로써 생성된 Part 에 대한 알림을 받아 ..
-
[YARN] ApplicationMaster 알아보기Hadoop 2024. 2. 28. 21:15
- 목차 ApplicationMaster ? Application Master 는 Yarn Client 에 의해서 요청된 Application 을 생성하고 관리하는 역할을 수행합니다. Application Master 는 실행할 Application 마다 하나씩 생성이 되는데요. A 라는 Job 을 실행하기 위해서 YARN 에게 요청하게 되면, YARN 의 ResourceManager 는 이 실행 요청을 받고, Application Master 를 먼저 생성합니다. 그리고 Application Master 는 A Job 의 실행과 관리를 책임지게 됩니다. 아래 그림처럼 YARN Client 의 Job 실행 요청을 수행하기 위해서 제일 먼저 Resource Manager 는 Application Maste..