Hadoop ecosystem
2022. 4. 30. 11:46ㆍAI/Big data
- 목차
반응형
Hadoop은 분산 시스템을 구성하는 다수의 S/W 집합체
- query engine
- HIVE, Impala, Flink, Spark
- 분산 데이터 처리
- MapReduce, Spark, Tez
- 리소스 관리자
- YARN, Mesos
- 분산 파일 시스템
- HDFS
Hadoop 1.0
- 분산 저장
- Name node와 딸린 여러 data node가 처리
- name node:
- blcok 정보를 지닌 meta data 관리
- 데이터 노드 관리
- data node
- 데이터를 block 단위로 저장
- block 단위 데이터는 복제하여 저장 (HA)
- 병렬 처리
- job tracker, task tracker로 구성
- 하나의 job tracker가 여러 task tracker를 제어
- job tracker
- 전체 작업의 진행 상황 관리
- 자원 관리
- 최대 4000대의 노드 등록
- task tracker
- 실제 작업 처리
- 작업 단위는 'slot'
- map slot
- reduce slot의 수가 고정
Hadoop 2.0
- 작업 리소스의 효율적인 관리를 위해 "YARN"을 도입
- 기존에는 job tracker에 병목 현상이 발생
- YARN은 job tracker를 분리하여
- 자원 관리는 resource manager와 node manager가 수행
- 작업 처리는 container가 담당
- app lifecycle은 application manager가 담당
- cluster 당 최대 만개의 노드 등록
client ---> Resource Manager <-------- Node Manager, container, app master
<-------- Node Manager, App Master, Container
<-------- Node Manager ,....
- container
- YARN에서의 작업 단위
- 작업이 제출되면
- App master 생성
- app master가 resoruce manager에 자원 요청
- 자원으로서 "container"를 할당 받아 작업 수행
- MapReduce 뿐만 아니라 Spark, HBase, Strom 등 다양한 component를 수행할 수 있음
Hadoop 3.0
- 추가
- eraser coding
- YARN timeline 서비스
- 장애복구
- Hadoop 2.0 까지는 HDFS에서 장애 복구를 위해 file을 복제
- 기본 복제 단위를 3
- 1개 파일에 2개의 복제본
- eraser coding
- parity block을 이용하여 3배가 아닌 1.5배의 저장 공간만 사용할 수 있도록 함
- YARN
- timeline 서비스 개선
- shuffle 처리 속도 증가
- HA를 위해 2개 이상의 name node를 지원
반응형
'AI > Big data' 카테고리의 다른 글
NumPy (0) | 2023.08.31 |
---|---|
YARN (Yet Another Resource Negotiator) (0) | 2022.04.30 |
Sharding (샤딩) (0) | 2022.04.29 |
열 지향 스토리지 (0) | 2022.04.29 |
data lake (0) | 2022.04.29 |