전체 글
-
[pytorch] nn.Embedding 알아보기AI-ML 2024. 3. 8. 22:42
- 목차 키워드.- Embedding- Latent 들어가며.pytorch 의 Embedding Layer 는 Input Tensor 를 다차원으로 확장시켜주는 기능을 수행합니다.예를 들어, 입력값이 1 인 경우에 5차원으로 확장시켜주는 Embedding Layer 에 의해서[-0.8088, 0.6665, -0.0974, -0.1083, 0.2192] 와 같은 형식으로 변형될 수 있죠.1 -> Embedding -> [-0.8088, 0.6665, -0.0974, -0.1083, 0.2192] 이러한 Embedding Layer 는 크게 2가지 동작을 수행합니다.첫번째로 제공되는 기능은 Input Data 를 Latent Vector 인코딩할 수 있습니다.즉, Categorical 한 제한된 범위..
-
[MySQL] group_concat 함수 알아보기Database/MySQL 2024. 3. 8. 21:54
- 목차 group_concat ?group_concat 함수는 MySQL 의 집계함수 중의 하나입니다.집계함수란 Group By 문장과 함께 쓰여져 나열되는 값들을 하나의 값으로 축소시키는 역할을 합니다.예를 들어서 List -> Item, Vector -> Scalar 와 같은 형식으로 Collection 타입의 값을 Single Item 값으로 변형할 수 있습니다.대표적으로 Max, Sum, Avg, Reduce 등이 존재하죠.Collection 의 여러 값들 중에서 최대, 최소, 평균, 합계 등을 계산하여 하나의 값으로 축소시킵니다. group_concat 은 이러한 Aggregation Function 으로 사용됩니다.동작 방식은 Collection 을 하나의 나열된 String 으로 반환합니다..
-
[Avro] Avro Schema 알아보기BigData 2024. 3. 6. 22:33
- 목차 들어가며.이번 글에서는 Avro Schema 에 대한 다양한 예시들을 살펴볼 예정입니다.Python 과 "avro-python3==1.10.2" 모듈을 사용하여 다양한 데이터셋을 다루어보도록 하겠습니다.전반적인 데이터들은 Kaggle 에서 제공되는 데이터를 활용하도록 하겠습니다. Enum.제한된 갯수를 가지는 Categorical Data 를 대상으로 Enum 타입을 적용할 수 있습니다.예를 들어, 날씨 정보가 ['drizzle' 'rain' 'sun' 'snow' 'fog'] 와 같은 5가지 경우를 가진다고 한다면 Enum 타입을 을 사용할 수 있습니다.아래 Kaggle 의 seattle_weather 데이터셋을 통해서 자세한 내용을 살펴보도록 하겠습니다. https://www.kaggle.c..
-
[Spark] Row 알아보기Spark 2024. 3. 3. 12:33
- 목차 들어가며. 이번 글에서는 Spark 의 Row 에 대해서 알아보려고 합니다. Row 는 DataFrame 을 구성하는 개별적인 데이터 레코드를 의미합니다. 그래서 Row 들의 모음이 곧 DataFrame 이라고 볼 수 있죠. DataFrame 을 생성하는 형태는 아래와 같습니다. SparkSession 의 createDataFrame 함수를 사용하여 DataFrame 을 만들게 되는데요. 이때에 필수적인 Arguments 가 Row 와 Schema 입니다. # row 생성. rows = [Row(name="Andy", age=32), Row(name="Bob", age=43)] # schema 생성. schema = StructType([ StructField("name", StringType(..
-
pytorch - Conv2D 알아보기 ( CNN )AI-ML 2024. 3. 3. 12:15
- 목차 키워드.- CNN- Convolution- conv2d 들어가며.CNN 을 구성하기 위해서 사용되는 nn.Conv2d 의 구체적인 동작 방식에 대해서 알아보려고 합니다. 함께 보면 좋은 글.https://westlife0615.tistory.com/765 Cross Entropy 알아보기- 목차 키워드.- Probability- Surprise- Entropy- Cross Entropy 들어가며.이번 글에서는 Cross Entropy 에 대해서 알아보는 시간을 가지도록 하겠습니다. Cross Entropy 를 이해하기 위해서 몇가지 사전지식들이 요westlife0615.tistory.com Kernel or Filter.CNN 은 원본 이미지와 커널이라고 불리는 작은 크기의 Matrix 를 곱..
-
[Hadoop] yarn-site.xml 알아보기Hadoop 2024. 3. 3. 12:14
- 목차 들어가며. 이번 글에서는 yarn-site.xml 의 설정들에 대해서 알아보도록 하겠습니다. 아래 링크는 yarn-default.xml 의 상세한 설명이 기록되어 있는 공식 문서의 주소입니다. https://hadoop.apache.org/docs/r3.1.0/hadoop-yarn/hadoop-yarn-common/yarn-default.xml yarn-site.xml yarn.nodemanager.resource.memory-mb yarn.nodemanager.resource.memory-mb 는 NodeManager 에서 실행될 컨테이너의 메모리 사이즈를 설정하는 옵션입니다. 만약 yarn.nodemanager.resource.memory-mb 가 -1 로 설정되어 있고 또 다른 옵션인 ya..
-
[torchvision] ToTensor 알아보기AI-ML 2024. 3. 1. 09:08
- 목차 들어가며.이번 글에서는 torchvision 의 To_Tensor 기능에 대해서 알아보도록 하겠습니다.ToTensor 는 torchvision.transforms 모듈 내의 함수입니다.이는 Image 를 Tensor 로 변형할 수 있는 기능을 제공합니다. 예를 들어 임의의 이미지를 To_Tensor 함수를 이용하여 Tensor 로 변형해보도록 하겠습니다.사용할 이미지는 임의의 이미지로 176x197 사이즈의 이미지입니다.import torchvisionfrom PIL import Imageimage = Image.open("../images/sample1.jpg")to_tensor = torchvision.transforms.ToTensor()tensor = to_tensor(image)prin..
-
[ClickHouse] Parts & Partition 알아보기Database/Clickhouse 2024. 2. 29. 07:04
- 목차 들어가며. 이번 글에서는 ClickHouse 의 MergeTree 엔진에서 사용되는 Parts 와 Partition 에 대해서 알아보려고 합니다. Partition 은 MergeTree Table 에 생성되는 데이터의 물리적인 단위입니다. Table 은 Partition 을 기준으로 물리적인 저장 위치가 나뉘어집니다. 그래서 시계열 데이터의 경우에, Partition 을 시간 기준으로 나눌 수 있고, Table 의 데이터를 연월일시에 따라 개별적인 파일로써 관리됩니다. Parts 는 하나의 온전한 Partition 을 만들기 위해서 저장되는 임시 단위입니다. 만약 시간 단위로 Partition 이 나뉘어진다고 가정하겠습니다. 그리고 1분마다 100개의 데이터가 삽입됩니다. 이때 1시간 동안 총 ..
-
[YARN] ApplicationMaster 알아보기Hadoop 2024. 2. 28. 21:15
- 목차 ApplicationMaster ? Application Master 는 Yarn Client 에 의해서 요청된 Application 을 생성하고 관리하는 역할을 수행합니다. Application Master 는 실행할 Application 마다 하나씩 생성이 되는데요. A 라는 Job 을 실행하기 위해서 YARN 에게 요청하게 되면, YARN 의 ResourceManager 는 이 실행 요청을 받고, Application Master 를 먼저 생성합니다. 그리고 Application Master 는 A Job 의 실행과 관리를 책임지게 됩니다. 아래 그림처럼 YARN Client 의 Job 실행 요청을 수행하기 위해서 제일 먼저 Resource Manager 는 Application Maste..
-
[ClickHouse] primary.idx 파일 알아보기Database/Clickhouse 2024. 2. 28. 21:15
- 목차 들어가며. 이번 글에서는 ClickHouse 의 primary.idx 파일에 대해서 알아보려고 합니다. primary.idx 는 클릭하우스의 MergeTree Table 의 Primary Index 의 Entry 들을 관리하는 파일입니다. MergeTree Table 은 반드시 PRIMARY KEY 또는 ORDER BY 선언을 통해서 Primary Index 를 지정해야합니다. 이렇게 Primary Index 가 지정된 이후에 해당 테이블에 데이터가 추가되면 primary.idx 파일에 Index Entry 들이 기록되게 됩니다. 이어지는 내용에서 Index Entry 는 어떤 구조를 취하며, Parts, Granule, Sparse Index, Mark File 등에 대해서 자세히 알아보는 시..