data lake

2022. 4. 29. 22:03AI/Big data

    목차
반응형

데이터를 그대로 축적

여러 소스에서 들어온 데인터를 '축적'하는 '호수'

 

  • 분산 storage가 data lake로 이용됨
  • CSV나 JSON 등 범용적인 형태로 저장

이를 ETL 하여 (즉, 가공하여) data mart로서 table로 저장

이후 SQL로 query

 

ETL등의 가공에는 'MapReduce' 등의 분산 처리 기술이 필요함

 

* ad hoc analysis: 일회성 데이터 분석

* SQL query를 직접 작성해서 실행하던가 spread sheet에서 그래프의 생성까지 수작업으로 진행

 

 

반응형

'AI > Big data' 카테고리의 다른 글

Sharding (샤딩)  (0) 2022.04.29
열 지향 스토리지  (0) 2022.04.29
ETL, ELT  (0) 2022.04.29
Object storage  (0) 2022.04.29
카프카 (Kafka)  (0) 2022.04.29