빅데이터 에코 시스템

2022. 4. 29. 18:39AI/Big data

    목차
반응형
  1. 수집
    1. 내부/외부 데이터
      1. 내부: 시스템 로그, DB data
      2. 외부: 동영상, 웹 크로울링, SNS
    2. 수집방식
      1. HTTP web service, RDB, FTP, JMS, Text
      2. 새로운 방식의 데이터 수집
        1. SNS 상의 데이터 (text, image, 동영상)
        2. 전화음성
        3. GPS
        4. IoT device
        5. 공산 데이터, 인구 데이터
    3. 수집기술
      1. Flume
        1. 대량 log 수집
        2. 각 서버에 설치된 Flume agent에서 수집
      2. Kafka
        1. message broker
          1. collection
          2. buffering
        2. topic별 sub/pub 방식으로 message 전달
          1. sub은 pull
            1. 기존 message system은 push
        3. HA를 위해 broker들이 cluster로 동작
          1. cluster 내 broker의 분산 처리는 zookeepr가 담당
      3. sqoop
        1. 데이터 변환 CLI 지원 앱
      4. Nifi
        1. 시스템 간 데이터 흐름 자동화
      5. Splunk
        1. web 검색
      6. Logstash
        1. 실시간 데이터 수집 pipeline
      7. Fluentd
        1. 크로스 플랫폼 데이터 수집

 

정제

  • 데이터 식별
  • 필터링, 노이즈 제거
  • 변환
  • 압축
  • 적재

 

적재

  • 분석 가능한 환경으로 이동
  • NoSQL, RDB, Cloud storage, HDFS
  • RDB 데이터, CSV 형태 data를 정제 없이 바로 적제

 

분석

  • 분석을 위해 query engine 사용
  • 효과적 partitioing, indexing 
  • 실시간 분석, batch 분석
  • report

 

반응형

'AI > Big data' 카테고리의 다른 글

Object storage  (0) 2022.04.29
카프카 (Kafka)  (0) 2022.04.29
isort  (0) 2022.04.22
python-poetry  (0) 2022.04.22
surprise knns.KNNWithMeans  (0) 2022.03.26