분류 전체보기
-
pytorch - Conv2D 알아보기 ( CNN )AI-ML 2024. 3. 3. 12:15
- 목차 키워드.- CNN- Convolution- conv2d 들어가며.CNN 을 구성하기 위해서 사용되는 nn.Conv2d 의 구체적인 동작 방식에 대해서 알아보려고 합니다. 함께 보면 좋은 글.https://westlife0615.tistory.com/765 Cross Entropy 알아보기- 목차 키워드.- Probability- Surprise- Entropy- Cross Entropy 들어가며.이번 글에서는 Cross Entropy 에 대해서 알아보는 시간을 가지도록 하겠습니다. Cross Entropy 를 이해하기 위해서 몇가지 사전지식들이 요westlife0615.tistory.com Kernel or Filter.CNN 은 원본 이미지와 커널이라고 불리는 작은 크기의 Matrix 를 곱..
-
[Hadoop] yarn-site.xml 알아보기Hadoop 2024. 3. 3. 12:14
- 목차 들어가며. 이번 글에서는 yarn-site.xml 의 설정들에 대해서 알아보도록 하겠습니다. 아래 링크는 yarn-default.xml 의 상세한 설명이 기록되어 있는 공식 문서의 주소입니다. https://hadoop.apache.org/docs/r3.1.0/hadoop-yarn/hadoop-yarn-common/yarn-default.xml yarn-site.xml yarn.nodemanager.resource.memory-mb yarn.nodemanager.resource.memory-mb 는 NodeManager 에서 실행될 컨테이너의 메모리 사이즈를 설정하는 옵션입니다. 만약 yarn.nodemanager.resource.memory-mb 가 -1 로 설정되어 있고 또 다른 옵션인 ya..
-
[torchvision] ToTensor 알아보기AI-ML 2024. 3. 1. 09:08
- 목차 들어가며.이번 글에서는 torchvision 의 To_Tensor 기능에 대해서 알아보도록 하겠습니다.ToTensor 는 torchvision.transforms 모듈 내의 함수입니다.이는 Image 를 Tensor 로 변형할 수 있는 기능을 제공합니다. 예를 들어 임의의 이미지를 To_Tensor 함수를 이용하여 Tensor 로 변형해보도록 하겠습니다.사용할 이미지는 임의의 이미지로 176x197 사이즈의 이미지입니다.import torchvisionfrom PIL import Imageimage = Image.open("../images/sample1.jpg")to_tensor = torchvision.transforms.ToTensor()tensor = to_tensor(image)prin..
-
[ClickHouse] Parts & Partition 알아보기Database/Clickhouse 2024. 2. 29. 07:04
- 목차 들어가며. 이번 글에서는 ClickHouse 의 MergeTree 엔진에서 사용되는 Parts 와 Partition 에 대해서 알아보려고 합니다. Partition 은 MergeTree Table 에 생성되는 데이터의 물리적인 단위입니다. Table 은 Partition 을 기준으로 물리적인 저장 위치가 나뉘어집니다. 그래서 시계열 데이터의 경우에, Partition 을 시간 기준으로 나눌 수 있고, Table 의 데이터를 연월일시에 따라 개별적인 파일로써 관리됩니다. Parts 는 하나의 온전한 Partition 을 만들기 위해서 저장되는 임시 단위입니다. 만약 시간 단위로 Partition 이 나뉘어진다고 가정하겠습니다. 그리고 1분마다 100개의 데이터가 삽입됩니다. 이때 1시간 동안 총 ..
-
[YARN] ApplicationMaster 알아보기Hadoop 2024. 2. 28. 21:15
- 목차 ApplicationMaster ? Application Master 는 Yarn Client 에 의해서 요청된 Application 을 생성하고 관리하는 역할을 수행합니다. Application Master 는 실행할 Application 마다 하나씩 생성이 되는데요. A 라는 Job 을 실행하기 위해서 YARN 에게 요청하게 되면, YARN 의 ResourceManager 는 이 실행 요청을 받고, Application Master 를 먼저 생성합니다. 그리고 Application Master 는 A Job 의 실행과 관리를 책임지게 됩니다. 아래 그림처럼 YARN Client 의 Job 실행 요청을 수행하기 위해서 제일 먼저 Resource Manager 는 Application Maste..
-
[ClickHouse] primary.idx 파일 알아보기Database/Clickhouse 2024. 2. 28. 21:15
- 목차 들어가며. 이번 글에서는 ClickHouse 의 primary.idx 파일에 대해서 알아보려고 합니다. primary.idx 는 클릭하우스의 MergeTree Table 의 Primary Index 의 Entry 들을 관리하는 파일입니다. MergeTree Table 은 반드시 PRIMARY KEY 또는 ORDER BY 선언을 통해서 Primary Index 를 지정해야합니다. 이렇게 Primary Index 가 지정된 이후에 해당 테이블에 데이터가 추가되면 primary.idx 파일에 Index Entry 들이 기록되게 됩니다. 이어지는 내용에서 Index Entry 는 어떤 구조를 취하며, Parts, Granule, Sparse Index, Mark File 등에 대해서 자세히 알아보는 시..
-
[Spark] approxCountDistinct 알아보기Spark 2024. 2. 22. 20:39
- 목차 들어가며.이번 글에서는 SparkSQL 의 approxCountDistinct 함수에 대해 알아보려고 합니다.approxCountDistinct 은 특정 칼럼의 값들이 몇개의 범주로 구성되어있는지를 파악하는 함수입니다.즉, Categorical Data 의 종류 갯수를 파악합니다.approxCountDistinct 는 이름에서 유추할 수 있듯이, 대략적인 결과를 획득하기 위한 함수인데요.큰 규모의 데이터셋에 대해서 약간의 오차를 허용하고 결과 획득 시간을 단축하기 위한 목적을 가집니다. 사용할 데이터.사용할 데이터는 Kaggle 의 Bank Marketing 데이터를 사용합니다.아래 링크에서 다운로드받으실 수 있습니다.https://www.kaggle.com/datasets/henriqueyam..
-
[pytorch] NLLLoss 알아보기 (Negative Log Likelihood)AI-ML 2024. 2. 22. 20:39
- 목차 키워드.- Likelihood- NLL Loss Likelihood 란 ?이번 글의 주제인 NLL Loss 의 NLL 은 Negative Log Likelihood 의 약자입니다.그래서 우선적으로 Likelihood 의 의미에 대해서 간략히 알아보려고 합니다.Likelihood 는 우리말로 가능성, 가능도, 우도 등으로 불립니다.Likelihood 는 수식으로 아래와 같이 표현됩니다.$$ L(\theta | x) $$ $ \theta $ 는 모델의 파라미터 또는 확률 분포의 여러 변수들을 의미하구요.그리고 X 는 데이터 또는 Random Variable 을 의미합니다. 정확한 이해를 위해서 여러가지 예시를 설명드리겠습니다. 정규 분포와 Likelihood.대한민국 성인 남성의 키를 정규분포로 표..
-
[Python] io.BytesIO truncate 알아보기Python 2024. 2. 22. 07:05
- 목차 들어가며.이번 글에서는 파이썬의 io 모듈의 BytesIO 에 대해서 알아봅니다.특히, BytesIO 로 생성된 ByteBuffer 의 truncate 기능에 대해서 자세히 알아보려고 합니다. 파이썬의 io 모듈은 StringIO 와 BytesIO 객체를 제공합니다.이들은 메모리 상에 저장된 문자 정보를 마치 파일을 다루는 듯한 API 를 제공합니다.그래서 read, seek, truncate 등의 File Read, Write API 를 사용할 수 있습니다. 하지만 이들이 저장하고 관리하는 실질적인 데이터를 동일합니다.아래의 예시처럼 이들은 "모든 소문자 알파벳들"을 저장할 뿐이며, 제공되는 API 가 다르죠.data: str = "abcdefghijklmnopqrst..
-
[Hadoop] HADOOP_USER_NAME 환경변수 알아보기Hadoop 2024. 2. 21. 07:30
- 목차 들어가며. 로컬 환경의 터미널에서 원격의 Hadoop 시스템에게 명령을 요청하는 경우가 종종 생기곤 합니다. 이때에 hdfs dfs 커맨드를 사용하게 되는데 별다른 조치없이 hdfs 커맨드를 사용하게 되면, 실제 로컬 머신의 Active User 가 hdfs File System 의 사용자로 설정됩니다. 이를 방지하는 방법에 대해서 알아보도록 하겠습니다. 간단히 Hadoop 실행하기. 아래의 링크는 docker-compose 를 통해서 간단히 Hadoop Cluster 를 생성하는 내용의 페이지입니다. https://westlife0615.tistory.com/20 [Hadoop] Docker 로 Hadoop Cluster 실행하기 ( docker-compose ) - 목차 소개. 하둡을 이해하..