전체 글
-
[Hadoop] Docker 로 구축하는 Hadoop ClusterHadoop 2024. 6. 8. 13:08
- 목차 들어가며.이번 글에서는 Docker와 Dockerfile을 사용해 간단히 Hadoop 클러스터를 구축하는 방법을 소개합니다.대규모 데이터 분석을 위해 널리 사용되는 Hadoop 은 일반적으로 복잡한 설치 과정이 필요하지만,Docker를 사용하면 이 과정을 손쉽게 자동화하고 간소화할 수 있습니다.이 글에서는 Dockerfile 을 작성해 필요한 Hadoop 이미지와 컨테이너를 생성하고,이를 바탕으로 최소한의 리소스로 구성된 단일 노드 또는 다중 노드 클러스터를 구축하는 과정을 다룹니다. 도커 파일 작성하기.Hadoop 클러스터를 구축하기 위한 Dockerfile을 작성하는 방법을 알아보겠습니다.이번 설정에서는 Ubuntu를 기본 이미지로 사용하고, Hadoop 설치와 HDFS 설정을 통해 네임노..
-
[Kafka] Timeindex 알아보기Kafka 2024. 6. 1. 09:26
- 목차 들어가며.카프카는 Producer 로부터 전달받은 데이터들을 저장합니다.이 데이터들은 Log Segment 라는 단위로 파일로써 저장되는데요.Log Segment 는 log.segment.bytes, log.segment.ms 라는 기준에 따라서 Flush 가 진행됩니다.예를 들어, log.segment.bytes 가 1KB 이고 2KB 만큼의 데이터가 Producer 로부터 생성된다면 총 2개의 Log Segment 파일이 생성되는 구조입니다.또한 Producer 로부터 생성되는 Record 는 저마다 Timestamp 를 가지게 되며,log.segment.ms 가 1분이라면 1분을 기준으로 Log Segment 파일이 생성됩니다.Log Segment File 을 생성하기 위한 기준에 대해 대..
-
[Hadoop] HDFS 기본 명령어 알아보기Hadoop 2024. 6. 1. 09:26
- 목차 들어가며.아래는 이전에 작성한 Docker로 Hadoop 클러스터 구축하기 글 링크를 첨부하며,자연스럽게 새로운 블로그 글의 내용을 시작하는 예시입니다. https://westlife0615.tistory.com/881 [Hadoop] Docker 로 구축하는 Hadoop Cluster- 목차 들어가며.이번 글에서는 Docker와 Dockerfile을 사용해 간단히 Hadoop 클러스터를 구축하는 방법을 소개합니다.대규모 데이터 분석을 위해 널리 사용되는 Hadoop 은 일반적으로 복잡한 설치 과정westlife0615.tistory.com 이번 글에서는 HDFS에서 자주 사용하는 기본 명령어들을 다뤄보겠습니다.Hadoop 분산 파일 시스템(HDFS)은 대용량 데이터를 효율적으로 관리하기 위해..
-
[PyTorch] requires_grad 알아보기AI-ML 2024. 5. 26. 10:22
- 목차 들어가며.PyTorch 의 Tensor 는 grad 라는 속성을 가집니다.생성되는 모든 Tensor 는 None 상태의 grad 값을 가지고 있는데요.이는 이름의 의미하는바와 같이 Gradient 인 미분 기울기 값을 의미합니다.아래와 같이 임의의 Tensor 를 생성한 이후에 grad 속성을 조회하게 되면 None 이 저장되어 있음을 알 수 있습니다.import torchtorch.ones(1).grad# --> None 그럼 grad 에 해당하는 미분 기울기 값은 언제 생성될까요 ?이는 Backpropagation 과정에서 생성됩니다.아래와 같이 Tensor 를 생성하고 backward Function를 통해서 역전파를 시켜주게 되면 Tensor 의 grad 에 값이 할당됩니다.( 아래에서 ..
-
[scikit-surprise] SVD 모델 추론하기AI-ML 2024. 5. 26. 10:22
- 목차 키워드. scikit-surpriseInferenceSVD함께 보면 좋은 글. https://westlife0615.tistory.com/858 [scikit-surprise] SVD 모델 생성하기- 목차 키워드.scikit-surpriseSVDMatrix Factorization 들어가며.SVD 에 대해서 설명하는 이전 글과 이어지는 내용입니다. https://westlife0615.tistory.com/844 [scikit-surprise] SVD Model 알아보기 ( Singular Value Decomposiwestlife0615.tistory.com https://westlife0615.tistory.com/844 [scikit-surprise] SVD Model 알아보기 ( Sing..
-
[PyTorch] squeeze, unsqueeze 알아보기AI-ML 2024. 5. 21. 06:22
- 목차 들어가며.PyTorch 는 Tensor 의 차원을 늘리거나 줄일 수 있는 함수를 제공합니다.이러한 함수의 이름은 squeeze 와 unsqueeze 함수인데요.squeeze 라는 영단어의 뜻이 "(특히 손가락으로 꼭) 짜다[쥐다]", "(무엇에서 액체를) 짜내다[짜다]" 라고 하는데요.이런 의미처럼 squeeze 함수를 통해서 Tensor 의 차원을 줄이고, unsqueeze 함수를 활용하여 차원을 늘릴 수 있습니다. squeeze 함수와 unsqueeze 함수는 무턱대로 차원을 변형하지는 않습니다.차원의 Length 가 1 인 경우가 늘리거나 줄어드는 대상이 됩니다.예를 들어, 흑백의 이미지와 RGB 컬러의 이미지가 존재한다고 가정하겠습니다.일반적인 이미지는 Width 와 Height 인 크기..
-
[ scikit-surprise ] SVD Regularization Terms 알아보기AI-ML 2024. 5. 18. 17:55
- 목차 키워드.- scikit-surprise- SVD- Lasso Regularization 함께 보면 좋은 글. https://westlife0615.tistory.com/844 [scikit-surprise] SVD Model 알아보기 ( Singular Value Decomposition )- 목차 키워드.scikit-surpriseMatrix FactorizationSVDLatent Space 함께 보면 좋은 글.https://westlife0615.tistory.com/851 [scikit-surprise] Dataset 이해하기- 목차 키워드.scikit-surpriseCollaborative FilteringRecommender Systemmovielewestlife0615.tistory..
-
[scikit-surprise] SVD 모델 생성하기AI-ML 2024. 5. 18. 07:45
- 목차 키워드.scikit-surpriseSVDMatrix Factorization 들어가며.SVD 에 대해서 설명하는 이전 글과 이어지는 내용입니다. https://westlife0615.tistory.com/844 [scikit-surprise] SVD Model 알아보기 ( Singular Value Decomposition )- 목차 키워드.scikit-surpriseMatrix FactorizationSVDLatent Space 함께 보면 좋은 글.https://westlife0615.tistory.com/851 [scikit-surprise] Dataset 이해하기- 목차 키워드.scikit-surpriseCollaborative FilteringRecommender Systemmoviel..
-
[Spark] Spark Cluster 를 구축하기 ( Docker )Spark 2024. 5. 17. 22:31
- 목차 들어가며.이번 글에서는 Spark Cluster 를 구현하는 방법에 대해서 알아보려고 합니다.기본적으로 Docker Container 를 활용하여 Spark Cluster 를 구현하며,Spark Cluster 를 실행하기 위한 Dockerfile 과 Docker Compose 등의 상세한 내용들을 다룰 예정입니다. Spark Cluster 구축하기.Dockerfile 구성하기.가능한 Docker Hub 에 존재하는 Spark Docker Image 를 활용하려고 검색해보았지만, 개인적으로 마음에 드는 이미지가 존재하지 않아서 아래와 같이 ubuntu Base Image 로부터 Docker Image 를 생성합니다.아래 Dockerfile 의 내용은 Ubuntu Base Image 와 Hadoo..
-
[pandas] DataFrame melt 알아보기Python 2024. 5. 17. 22:31
- 목차 키워드.- Pivot Table 들어가며.이번 글에서는 Pandas DataFrame 의 melt 함수에 대해서 알아보도록 하겠습니다.melt 는 Pivot Table 을 row-by-row 형식으로 변경할 수 있습니다.예를 들어, 아래 이미지와 같이 user 와 item 에 해당하는 DataFrame 이 존재한다고 가정하겠습니다. 위 DataFrame 은 row-by-row 형식으로 user 와 item 의 관계를 보여줍니다.이는 user 와 item 각각의 Column 으로 설정하죠. 위 DataFrame 의 Pivot Table 형식은 아래와 같습니다.Pivot Table 의 index 는 user, column 은 item 이 됩니다. 이 상황에서 melt 함수를 사용하면 Pivot Ta..