Hadoop ecosystem

2022. 4. 30. 11:46AI/Big data

    목차
반응형

Hadoop은 분산 시스템을 구성하는 다수의 S/W 집합체

  • query engine
    • HIVE, Impala, Flink, Spark
  • 분산 데이터 처리
    • MapReduce, Spark, Tez
  • 리소스 관리자
    • YARN, Mesos
  • 분산 파일 시스템
    • HDFS

 

Hadoop 1.0

  • 분산 저장
    • Name node와 딸린 여러 data node가 처리
    • name node:
      • blcok 정보를 지닌 meta data 관리
      • 데이터 노드 관리
    • data node
      • 데이터를 block 단위로 저장
      • block 단위 데이터는 복제하여 저장 (HA)
  • 병렬 처리
    • job tracker, task tracker로 구성
    • 하나의 job tracker가 여러 task tracker를 제어
    • job tracker
      • 전체 작업의 진행 상황 관리
      • 자원 관리
      • 최대 4000대의 노드 등록
    • task tracker
      • 실제 작업 처리
      • 작업 단위는 'slot'
        • map slot
        • reduce slot의 수가 고정

Hadoop 2.0

  • 작업 리소스의 효율적인 관리를 위해 "YARN"을 도입
    • 기존에는 job tracker에 병목 현상이 발생
    • YARN은 job tracker를 분리하여 
      • 자원 관리는 resource manager와 node manager가 수행
      • 작업 처리는 container가 담당
      • app lifecycle은 application manager가 담당
      • cluster 당 최대 만개의 노드 등록
client ---> Resource Manager <-------- Node Manager, container, app master
                             <-------- Node Manager, App Master, Container
                             <-------- Node Manager ,....
  • container
    • YARN에서의 작업 단위
    • 작업이 제출되면
      • App master 생성
      • app master가 resoruce manager에 자원 요청
        • 자원으로서 "container"를 할당 받아 작업 수행
    • MapReduce 뿐만 아니라 Spark, HBase, Strom 등 다양한 component를 수행할 수 있음

 

Hadoop 3.0

  • 추가
    • eraser coding
    • YARN timeline 서비스 
  • 장애복구
    • Hadoop 2.0 까지는 HDFS에서 장애 복구를 위해 file을 복제
    • 기본 복제 단위를 3
      • 1개 파일에 2개의 복제본
    •  eraser coding
      • parity block을 이용하여 3배가 아닌 1.5배의 저장 공간만 사용할 수 있도록 함
  • YARN
    • timeline 서비스 개선
    • shuffle 처리 속도 증가
    • HA를 위해 2개 이상의 name node를 지원
반응형

'AI > Big data' 카테고리의 다른 글

NumPy  (0) 2023.08.31
YARN (Yet Another Resource Negotiator)  (0) 2022.04.30
Sharding (샤딩)  (0) 2022.04.29
열 지향 스토리지  (0) 2022.04.29
data lake  (0) 2022.04.29