열 지향 스토리지
2022. 4. 29. 22:25ㆍAI/Big data
- 목차
반응형
"메모리"에 모두 올리지 못할 정도의 대량의 데이터는
"집계"에 적절한 형태로 저장되어 있어야 한다.
대량의 데이터 처리에 용이한 형태로 "가공"
for low latency
- 모든 데이터를 memory에 상주
- 메모리에 모두 올릴 수 있다면 MySQL 이나 PostgreSQL 등의 일반적인 RDB를 사용해도 좋음
- 그렇지 못한다면,
- I/O가 많이 발생하여 성능이 급격히 느려짐
열 지향 DB의 형태
- 데이터를 미리 column 단위로 정리해 저장
- 읽고 쓰는 단위가 record 단위의 row가 아니라 행단위 row 임
- 이후 column 단위로 집계하여 분석
열 지향 DB의 특징
- 필요한 column만 load 하여 I/O를 줄임
- 동일 열에 유사 데이터가 많아 압축이 용이 (90%)
- 하나의 query에 대해 여러 task로 병렬 처리
- 행 DB는 하나의 query에 보통 하나의 thread가 처리
- 데이터 마트의 지연을 줄이려면,
- record가 수천만건 이하인 경우 RDB를 사용
- 수억 이상의 record를 지닌 경우 MPP(열지향) DB를 사용
- 대량의 data를 read 하기에 query 처리 시간이 길다.
- 압축 등이 되어 있기에 CPU resource를 많이 사용한다.
- 멀티 코어를 활용하여 고속화를 "해야"한다.
- 10만 records를 1000개의 task로 나눠 처리하고 집계 하는 등이 필요하다.
반응형
'AI > Big data' 카테고리의 다른 글
Hadoop ecosystem (0) | 2022.04.30 |
---|---|
Sharding (샤딩) (0) | 2022.04.29 |
data lake (0) | 2022.04.29 |
ETL, ELT (0) | 2022.04.29 |
Object storage (0) | 2022.04.29 |