정보 이론
2021. 10. 9. 14:08ㆍMathematics
- 목차
반응형
Impurity
범주 내 다른 데이터가 얼마나 섞여 있는지 정도
같은 종류의 데이터가 많을 수록 purity 하며, 그렇지 않은 경우 impurity
entropy
impurity(불순도)를 수치적으로 나타낸 척도
entropy가 높다는 것은 불순도가 높다는 의미
entropy 1이 최대 불순도 (데이터가 정확히 반씩 섞여 있는 경우)
0이 최소 불순도 (범주 내 한 범주의 데이터만 존재함)
공식
pi = 한 영역 안에 존재하는 데이터 가운데 범주 i에 속하는 데이터의 비율
원 수식이 log2(1/p)이기에 -를 붙임
즉, 0.XX이니 지수가 -값으로 계산됨
서로 다른 성질의 데이터가 많음: high entropy (불확실성이 높음 -> 정보량이 많음)
서로 다른 성질의 데이터가 적음: low entropy
계산 example
log2(5/10) = log2(1/2) = log2(1) - log2(2) = 0 - 1 = -1
Joint Information
독립 사건의 경우 곱으로 표현되기에 정보량 역시
1/(Pi x Pj)와 같은 형태로 표현된다.
평균 정보량
반응형
'Mathematics' 카테고리의 다른 글
2265. Count Nodes Equal to Average of Subtree (0) | 2023.01.27 |
---|---|
GStreamer (0) | 2021.10.10 |