YARN (Yet Another Resource Negotiator)

2022. 4. 30. 11:54AI/Big data

    목차
반응형

하둡에서 처리되는 데이터 대부분은 HDFS에 저장된다. 

네트워크에 연결된 파일 서버와 같은 존재이다. 

다수의 computer에 파일을 복사하여 "중복성"을 높여 HA를 달성한다. (3개 복사, eraser coding을 통해 1.5의 리소스만 사용)

 

YARN

cluster 내 CPU나 memory 등의 자원을 관리한다. 

Spark도 분산 관리를 하는데 YARN을 사용하는 이유는?

  • YARN은 한 machine에서 VM을 올려 자원을 더 효과적으로 사용한다. 
  • VM처럼 container를 써서 자원을 효율적으로 분리해서 사용한다. 
  • cluster는 Spark를 한 개만 실행할 수 있다. 
    • 즉, 여러개의 Spark를 실행하고 자원을 관리하려면 YARN이 필요하다. 
    • e.g.,
      • YARN으로 데이터 정제 (정제 task)
      • 데이터 분석 시 Spark로 분석 (분석 task)
      • 이렇게 하나의 cluster에서 여러 task를 수행할 수 있다. 

 

즉, cluster 내 하나 이상의 task를 저원을 쪼개서 병렬 수행하기 위해 YARN이 필요하다. 

 

YARN container

CPU와 memory를 container 단위로 관리한다. 

  • 앱 마다 실행 우선순위 설정 가능

 

 

반응형

'AI > Big data' 카테고리의 다른 글

NumPy  (0) 2023.08.31
Hadoop ecosystem  (0) 2022.04.30
Sharding (샤딩)  (0) 2022.04.29
열 지향 스토리지  (0) 2022.04.29
data lake  (0) 2022.04.29