빅데이터 에코 시스템
2022. 4. 29. 18:39ㆍAI/Big data
- 목차
반응형
- 수집
- 내부/외부 데이터
- 내부: 시스템 로그, DB data
- 외부: 동영상, 웹 크로울링, SNS
- 수집방식
- HTTP web service, RDB, FTP, JMS, Text
- 새로운 방식의 데이터 수집
- SNS 상의 데이터 (text, image, 동영상)
- 전화음성
- GPS
- IoT device
- 공산 데이터, 인구 데이터
- 수집기술
- Flume
- 대량 log 수집
- 각 서버에 설치된 Flume agent에서 수집
- Kafka
- message broker
- collection
- buffering
- topic별 sub/pub 방식으로 message 전달
- sub은 pull
- 기존 message system은 push
- sub은 pull
- HA를 위해 broker들이 cluster로 동작
- cluster 내 broker의 분산 처리는 zookeepr가 담당
- message broker
- sqoop
- 데이터 변환 CLI 지원 앱
- Nifi
- 시스템 간 데이터 흐름 자동화
- Splunk
- web 검색
- Logstash
- 실시간 데이터 수집 pipeline
- Fluentd
- 크로스 플랫폼 데이터 수집
- Flume
- 내부/외부 데이터
정제
- 데이터 식별
- 필터링, 노이즈 제거
- 변환
- 압축
- 적재
적재
- 분석 가능한 환경으로 이동
- NoSQL, RDB, Cloud storage, HDFS
- RDB 데이터, CSV 형태 data를 정제 없이 바로 적제
분석
- 분석을 위해 query engine 사용
- 효과적 partitioing, indexing
- 실시간 분석, batch 분석
- report
반응형
'AI > Big data' 카테고리의 다른 글
Object storage (0) | 2022.04.29 |
---|---|
카프카 (Kafka) (0) | 2022.04.29 |
isort (0) | 2022.04.22 |
python-poetry (0) | 2022.04.22 |
surprise knns.KNNWithMeans (0) | 2022.03.26 |