ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Hadoop DataNode 알아보기
    Hadoop 2023. 12. 12. 05:55
    728x90
    반응형

    - 목차

     

    DataNode.


    하둡의 데이터노드는 실질적인 파일을 저장하는 영역입니다.
    네임노드와 데이터노드가 모여 하둡이라는 분산 저장소를 형성하는데요.
    네임노드는 파일들이 분산저장된 메타데이터를 저장하고,
    데이터노드는 파일들의 block 들을 저장합니다.
    간단한 예시를 하나 들어보겠습니다.
    test.txt 라는 파일 하나를 하둡 분산 저장소에 저장해보겠습니다.
    하나의 네임노드와 세개의 데이터노드가 존재한다고 가정하겠습니다.

    아래와 같은 방식으로 test.txt 파일이 hdfs 에 추가됩니다.

    hdfs dfs -put test.txt /

     

    1. block size 가 128mb, file size 가 500mb 인 경우.


    파일은 4개의 block 들로 나뉘어집니다.
    500mb 파일이 block size 단위로 나뉘어지기 때문입니다.
    그리고 3개의 데이터노드로 나뉘어 저장됩니다.

    참고로 hdfs-site.xml 의 dfs.block.size 설정을 통해서 block size 의 설정이 가능합니다.


    2. Replication 이 3 인 경우.


    Replication 은 block 을 얼마나 복제할지에 대한 살정입니다.
    hdfs-site.xml 의 dfs.replication 을 통해서 설정할 수 있습니다.
    dfs.replication 이 1 이면 block 의 복제가 발생하지 않습니다.
    dfs.replication 의 값이 2 이상이 되면서 복제가 발생하는데요.
    이때 복제된 block 들은 반드시 분산되어야 합니다.

    dfs.replication 이 3 인 경우엔 원본 block 1개와 복제된 block 2개가 데이터노드 a, b, c 로 분산됩니다.

    반응형

    'Hadoop' 카테고리의 다른 글

    Zookeeper Znode 알아보기  (0) 2023.12.19
    Hadoop File Permission 알아보기 (ACL)  (0) 2023.12.15
    Hadoop fsimage 알아보기  (0) 2023.12.11
    Hadoop Namespace 알아보기  (0) 2023.12.04
    Hadoop Edit Log 알아보기  (0) 2023.12.04
Designed by Tistory.