AI/Big data

data lake

Roiei 2022. 4. 29. 22:03
반응형

데이터를 그대로 축적

여러 소스에서 들어온 데인터를 '축적'하는 '호수'

 

  • 분산 storage가 data lake로 이용됨
  • CSV나 JSON 등 범용적인 형태로 저장

이를 ETL 하여 (즉, 가공하여) data mart로서 table로 저장

이후 SQL로 query

 

ETL등의 가공에는 'MapReduce' 등의 분산 처리 기술이 필요함

 

* ad hoc analysis: 일회성 데이터 분석

* SQL query를 직접 작성해서 실행하던가 spread sheet에서 그래프의 생성까지 수작업으로 진행

 

 

반응형