AI/Big data
data lake
Roiei
2022. 4. 29. 22:03
반응형
데이터를 그대로 축적
여러 소스에서 들어온 데인터를 '축적'하는 '호수'
- 분산 storage가 data lake로 이용됨
- CSV나 JSON 등 범용적인 형태로 저장
이를 ETL 하여 (즉, 가공하여) data mart로서 table로 저장
이후 SQL로 query
ETL등의 가공에는 'MapReduce' 등의 분산 처리 기술이 필요함
* ad hoc analysis: 일회성 데이터 분석
* SQL query를 직접 작성해서 실행하던가 spread sheet에서 그래프의 생성까지 수작업으로 진행
반응형