spring rain

YARN (Yet Another Resource Negotiator)

2022. 4. 30. 11:54ㆍAI/Big data

목차

하둡에서 처리되는 데이터 대부분은 HDFS에 저장된다.

네트워크에 연결된 파일 서버와 같은 존재이다.

다수의 computer에 파일을 복사하여 "중복성"을 높여 HA를 달성한다. (3개 복사, eraser coding을 통해 1.5의 리소스만 사용)

YARN

cluster 내 CPU나 memory 등의 자원을 관리한다.

Spark도 분산 관리를 하는데 YARN을 사용하는 이유는?

YARN은 한 machine에서 VM을 올려 자원을 더 효과적으로 사용한다.
VM처럼 container를 써서 자원을 효율적으로 분리해서 사용한다.
cluster는 Spark를 한 개만 실행할 수 있다.
- 즉, 여러개의 Spark를 실행하고 자원을 관리하려면 YARN이 필요하다.
- e.g.,
  - YARN으로 데이터 정제 (정제 task)
  - 데이터 분석 시 Spark로 분석 (분석 task)
  - 이렇게 하나의 cluster에서 여러 task를 수행할 수 있다.

즉, cluster 내 하나 이상의 task를 저원을 쪼개서 병렬 수행하기 위해 YARN이 필요하다.

YARN container

CPU와 memory를 container 단위로 관리한다.

앱 마다 실행 우선순위 설정 가능

저작자표시 비영리 변경금지 (새창열림)

'AI > Big data' 카테고리의 다른 글

NumPy (0)	2023.08.31
Hadoop ecosystem (0)	2022.04.30
Sharding (샤딩) (0)	2022.04.29
열 지향 스토리지 (0)	2022.04.29
data lake (0)	2022.04.29

관련글

댓글 0

티스토리툴바