열 지향 스토리지

2022. 4. 29. 22:25AI/Big data

    목차
반응형

"메모리"에 모두 올리지 못할 정도의 대량의 데이터는

"집계"에 적절한 형태로 저장되어 있어야 한다. 

 

대량의 데이터 처리에 용이한 형태로 "가공"

 

for low latency

  • 모든 데이터를 memory에 상주
    • 메모리에 모두 올릴 수 있다면 MySQL 이나 PostgreSQL 등의 일반적인 RDB를 사용해도 좋음
  • 그렇지 못한다면,
    • I/O가 많이 발생하여 성능이 급격히 느려짐

 

열 지향 DB의 형태

 

  • 데이터를 미리 column 단위로 정리해 저장
    • 읽고 쓰는 단위가 record 단위의 row가 아니라 행단위 row 임
  • 이후 column 단위로 집계하여 분석

 

열 지향 DB의 특징

  • 필요한 column만 load 하여 I/O를 줄임
  • 동일 열에 유사 데이터가 많아 압축이 용이 (90%)
  • 하나의 query에 대해 여러 task로 병렬 처리
    • 행 DB는 하나의 query에 보통 하나의 thread가 처리
  • 데이터 마트의 지연을 줄이려면,
    • record가 수천만건 이하인 경우 RDB를 사용
    • 수억 이상의 record를 지닌 경우 MPP(열지향) DB를 사용
  • 대량의 data를 read 하기에 query 처리 시간이 길다.
  • 압축 등이 되어 있기에 CPU resource를 많이 사용한다. 
  • 멀티 코어를 활용하여 고속화를 "해야"한다. 
    • 10만 records를 1000개의 task로 나눠 처리하고 집계 하는 등이 필요하다. 

 

 

반응형

'AI > Big data' 카테고리의 다른 글

Hadoop ecosystem  (0) 2022.04.30
Sharding (샤딩)  (0) 2022.04.29
data lake  (0) 2022.04.29
ETL, ELT  (0) 2022.04.29
Object storage  (0) 2022.04.29