data lake
2022. 4. 29. 22:03ㆍAI/Big data
- 목차
반응형
데이터를 그대로 축적
여러 소스에서 들어온 데인터를 '축적'하는 '호수'
- 분산 storage가 data lake로 이용됨
- CSV나 JSON 등 범용적인 형태로 저장
이를 ETL 하여 (즉, 가공하여) data mart로서 table로 저장
이후 SQL로 query
ETL등의 가공에는 'MapReduce' 등의 분산 처리 기술이 필요함
* ad hoc analysis: 일회성 데이터 분석
* SQL query를 직접 작성해서 실행하던가 spread sheet에서 그래프의 생성까지 수작업으로 진행
반응형
'AI > Big data' 카테고리의 다른 글
Sharding (샤딩) (0) | 2022.04.29 |
---|---|
열 지향 스토리지 (0) | 2022.04.29 |
ETL, ELT (0) | 2022.04.29 |
Object storage (0) | 2022.04.29 |
카프카 (Kafka) (0) | 2022.04.29 |