분류 전체보기
-
[Numpy] Boolean Indexing 알아보기 ( Boolean Mask )Python 2024. 3. 9. 21:36
- 목차 키워드.Boolean Indexing.Element-wise Calculation. 들어가며.Numpy 의 ndarray 는 Boolean Indexing 이라는 기능이 제공됩니다.만약 a = np.array([1,2,3,4,5]) 라는 ndarray 객체가 존재한다고 가정하겠습니다.a 는 1, 2, 3, 4, 5 인 5개의 데이터를 가지는 1차원 배열인데요.아래와 같이 bool_index 를 생성한 이후에 a[bool_index] 와 같은 형식으로 사용하게 되면,True 와 같은 Index 의 ndarray 의 값이 추출됩니다.a = np.array([1,2,3,4,5])bool_index = [True, True, False, False, False]print(f"a : {a[bool_ind..
-
[Python] threading Condition 알아보기 ( wait, notify )Python 2024. 3. 9. 21:36
- 목차 들어가며.파이썬은 멀티쓰레딩을 위해서 "thread" 와 "threading" 모듈을 제공합니다.흔히 "thread" 모듈은 멀티쓰레딩 프로그래밍을 위한 고수준의 API 를 담당하고,"threading" 모듈은 저수준의 기능을 제공하는 것으로 알려집니다.이번 글에서는 "threading" 모듈의 Condition 과 관련된 기능을 설명하며, 여러가지 케이스에 대해서 실습을 진행해보도록 합니다. Condition.Condition 객체는 여러 Thread 간의 동기화를 제공합니다. Synchroization 이란 ?먼저 동기화에 대해서 간단히 알아보겠습니다.동기화의 의미를 한자로 풀어보면 同期 로 작성되는데요. 이는 같음을 의미하는 "동(同)" 과 시간을 의미하는..
-
Cross Entropy 알아보기AI-ML 2024. 3. 8. 22:42
- 목차 키워드.- Probability- Surprise- Entropy- Cross Entropy 들어가며.이번 글에서는 Cross Entropy 에 대해서 알아보는 시간을 가지도록 하겠습니다. Cross Entropy 를 이해하기 위해서 몇가지 사전지식들이 요구되며, 사전 지식인 Probability, Surprise, Entropy 에 대해서 설명을 선행하면서 Cross Entropy 에 대해 알아보겠습니다. Probability.먼저 확률에 대해서 설명하도록 하겠습니다. 확률은 어떤 사건 X 가 발생하는 빈도를 표현하는 방식입니다. 확률을 계산하는 공식은 “사건 X 의 발생 빈도 / 전체 사건의 총 발생 횟수” 와 같습니다. 사건 X 는 전체 사건의 부분 집합으로 가정하며 그렇기에 확률의 범위는..
-
[Apache Arrow] Pyarrow Table 알아보기BigData/Parquet 2024. 3. 8. 22:42
- 목차 들어가며. 이번 글에서는 Pyarrow 의 Table 에 대해서 알아보려고 합니다. 여러 예제와 함께 설명을 진행할 예정이구요. python 3.10 버전과 pyarrow 16.0.0 버전을 사용합니다. 먼저 사용할 데이터를 간단히 소개드립니다. Kaggle 에서 제공되는 Movie Industry 데이터셋을 사용하구요. 영화와 관련된 메타데이터들이 csv 파일 형식으로 제공됩니다. https://www.kaggle.com/datasets/danielgrijalvas/movies?select=movies.csv Movie Industry Four decades of movies www.kaggle.com Table 생성하기. kaggle 사이트로부터 내려받은 csv 파일은 /tmp/movie.c..
-
[pytorch] nn.Embedding 알아보기AI-ML 2024. 3. 8. 22:42
- 목차 키워드.- Embedding- Latent 들어가며.pytorch 의 Embedding Layer 는 Input Tensor 를 다차원으로 확장시켜주는 기능을 수행합니다.예를 들어, 입력값이 1 인 경우에 5차원으로 확장시켜주는 Embedding Layer 에 의해서[-0.8088, 0.6665, -0.0974, -0.1083, 0.2192] 와 같은 형식으로 변형될 수 있죠.1 -> Embedding -> [-0.8088, 0.6665, -0.0974, -0.1083, 0.2192] 이러한 Embedding Layer 는 크게 2가지 동작을 수행합니다.첫번째로 제공되는 기능은 Input Data 를 Latent Vector 인코딩할 수 있습니다.즉, Categorical 한 제한된 범위..
-
[MySQL] group_concat 함수 알아보기Database/MySQL 2024. 3. 8. 21:54
- 목차 group_concat ?group_concat 함수는 MySQL 의 집계함수 중의 하나입니다.집계함수란 Group By 문장과 함께 쓰여져 나열되는 값들을 하나의 값으로 축소시키는 역할을 합니다.예를 들어서 List -> Item, Vector -> Scalar 와 같은 형식으로 Collection 타입의 값을 Single Item 값으로 변형할 수 있습니다.대표적으로 Max, Sum, Avg, Reduce 등이 존재하죠.Collection 의 여러 값들 중에서 최대, 최소, 평균, 합계 등을 계산하여 하나의 값으로 축소시킵니다. group_concat 은 이러한 Aggregation Function 으로 사용됩니다.동작 방식은 Collection 을 하나의 나열된 String 으로 반환합니다..
-
[Avro] Avro Schema 알아보기BigData 2024. 3. 6. 22:33
- 목차 들어가며.이번 글에서는 Avro Schema 에 대한 다양한 예시들을 살펴볼 예정입니다.Python 과 "avro-python3==1.10.2" 모듈을 사용하여 다양한 데이터셋을 다루어보도록 하겠습니다.전반적인 데이터들은 Kaggle 에서 제공되는 데이터를 활용하도록 하겠습니다. Enum.제한된 갯수를 가지는 Categorical Data 를 대상으로 Enum 타입을 적용할 수 있습니다.예를 들어, 날씨 정보가 ['drizzle' 'rain' 'sun' 'snow' 'fog'] 와 같은 5가지 경우를 가진다고 한다면 Enum 타입을 을 사용할 수 있습니다.아래 Kaggle 의 seattle_weather 데이터셋을 통해서 자세한 내용을 살펴보도록 하겠습니다. https://www.kaggle.c..
-
[Spark] Row 알아보기Spark 2024. 3. 3. 12:33
- 목차 들어가며. 이번 글에서는 Spark 의 Row 에 대해서 알아보려고 합니다. Row 는 DataFrame 을 구성하는 개별적인 데이터 레코드를 의미합니다. 그래서 Row 들의 모음이 곧 DataFrame 이라고 볼 수 있죠. DataFrame 을 생성하는 형태는 아래와 같습니다. SparkSession 의 createDataFrame 함수를 사용하여 DataFrame 을 만들게 되는데요. 이때에 필수적인 Arguments 가 Row 와 Schema 입니다. # row 생성. rows = [Row(name="Andy", age=32), Row(name="Bob", age=43)] # schema 생성. schema = StructType([ StructField("name", StringType(..
-
pytorch - Conv2D 알아보기 ( CNN )AI-ML 2024. 3. 3. 12:15
- 목차 키워드.- CNN- Convolution- conv2d 들어가며.CNN 을 구성하기 위해서 사용되는 nn.Conv2d 의 구체적인 동작 방식에 대해서 알아보려고 합니다. 함께 보면 좋은 글.https://westlife0615.tistory.com/765 Cross Entropy 알아보기- 목차 키워드.- Probability- Surprise- Entropy- Cross Entropy 들어가며.이번 글에서는 Cross Entropy 에 대해서 알아보는 시간을 가지도록 하겠습니다. Cross Entropy 를 이해하기 위해서 몇가지 사전지식들이 요westlife0615.tistory.com Kernel or Filter.CNN 은 원본 이미지와 커널이라고 불리는 작은 크기의 Matrix 를 곱..
-
[Hadoop] yarn-site.xml 알아보기Hadoop 2024. 3. 3. 12:14
- 목차 들어가며. 이번 글에서는 yarn-site.xml 의 설정들에 대해서 알아보도록 하겠습니다. 아래 링크는 yarn-default.xml 의 상세한 설명이 기록되어 있는 공식 문서의 주소입니다. https://hadoop.apache.org/docs/r3.1.0/hadoop-yarn/hadoop-yarn-common/yarn-default.xml yarn-site.xml yarn.nodemanager.resource.memory-mb yarn.nodemanager.resource.memory-mb 는 NodeManager 에서 실행될 컨테이너의 메모리 사이즈를 설정하는 옵션입니다. 만약 yarn.nodemanager.resource.memory-mb 가 -1 로 설정되어 있고 또 다른 옵션인 ya..