2022. 3. 23. 18:32ㆍAI/Big data
- 목차
fully connected neural network임
rating matrix를 2개의 matrix로 분해하는 방법
n 사용자 잠재요인 행렬과 아이템 잠재요인행렬로 분해
rating matrix는 보통 null 값을 갖음
Rating matrix R = P x Q^T
rating matrix R은 P와 Q로 분해됨
P x Q^T를 하면 Rhat이 되며 이는 R의 예측치
Rhat이 최대한 R에 가까운 값이 되도록 하는 P와 Q를 구하면 이것이 추천 모델이됨
P x Q^T
P는 각 사용자의 특성 K개를 가진 행렬
Q는 각 아이템의 특성을 나타내는 K개의 요인 값으로 구성된 행렬
P와 Q에서 공통인 K개의 요인이 "latent factor(잠재요인)"
n 즉, 잠재요인을 사용해서 분석하는 모델
k = 2인 경우 (잠재요인이 2개)
사용자와 영화의 특성을 두 개의 요인으로 나타냄
이 두 요인의 차원이
n (액션-드라마), (판타지-사실주의)이며 모든 사용자와 영화의 특성은 각 요인에 대해 -1.0~1.0의 값으로 표현가능할 시,
사용자요인 P
사용자 \ 잠재요인 | 액션-드라마 | 판타지-사실주의 |
Bob | -0.43 | 0.21 |
Sue | 0.31 | 0.92 |
Mary | 0.69 | -0.03 |
Alice | 0.46 | -0.30 |
4명의 사용자에 대한 두 가지 잠재요인의 값 P 행렬이 위와 같다면,
첫 번째 요인(factor, 액션-드라마)에서 -1에 가까울수록 액션의 성격이 강하고, 반대의 경우 드라마의 성격이 강함
Bob의 경우
액션-드라마가 -0.43이니 드라마 보다는 액션을 선호
판타지-사실주의는 0.21이므로 판타지 보다는 사실주의를 선호
아이템 요인 Q
영화 \ 잠재요인 | 액션-드라마 | 판타지-사실주의 |
기생충 | 0.31 | 0.60 |
겨울왕국 | 0.61 | -0.82 |
부산행 | -0.38 | -0.61 |
백두산 | -0.79 | 0.08 |
기생충의 경우
드라마에 가깝고
사실주의 성향이 강함
위 2개의 feature space를 살펴보면, 누가 어떤 영화를 좋아할지를 알 수 있음
사용자 \ 영화 | 기생충 | 겨울왕국 | 부산행 | 백두산 |
Bob | -0.0073 | -0.4345 | 0.0353 | 0.3565 |
Sue | 0.6481 | -0.5653 | -0.6790 | -031713 |
Mary | 0.1959 | 0.4455 | -0.2439 | -0.5475 |
Alice | -0.0374 | 0.5266 | 0.0082 | -0.3874 |
차원에서의 배치와 score가 상관 관계에 있음을 알 수 있다.
fully connected neural network임
rating matrix를 2개의 matrix로 분해하는 방법
n 사용자 잠재요인 행렬과 아이템 잠재요인행렬로 분해
rating matrix는 보통 null 값을 갖음
Rating matrix R = P x Q^T
rating matrix R은 P와 Q로 분해됨
P x Q^T를 하면 Rhat이 되며 이는 R의 예측치
Rhat이 최대한 R에 가까운 값이 되도록 하는 P와 Q를 구하면 이것이 추천 모델이됨
P x Q^T
P는 각 사용자의 특성 K개를 가진 행렬
Q는 각 아이템의 특성을 나타내는 K개의 요인 값으로 구성된 행렬
P와 Q에서 공통인 K개의 요인이 "latent factor(잠재요인)"
n 즉, 잠재요인을 사용해서 분석하는 모델
k = 2인 경우 (잠재요인이 2개)
사용자와 영화의 특성을 두 개의 요인으로 나타냄
이 두 요인의 차원이
n (액션-드라마), (판타지-사실주의)이며 모든 사용자와 영화의 특성은 각 요인에 대해 -1.0~1.0의 값으로 표현가능할 시,
사용자요인 P
사용자 \ 잠재요인 | 액션-드라마 | 판타지-사실주의 |
Bob | -0.43 | 0.21 |
Sue | 0.31 | 0.92 |
Mary | 0.69 | -0.03 |
Alice | 0.46 | -0.30 |
4명의 사용자에 대한 두 가지 잠재요인의 값 P 행렬이 위와 같다면,
첫 번째 요인(factor, 액션-드라마)에서 -1에 가까울수록 액션의 성격이 강하고, 반대의 경우 드라마의 성격이 강함
Bob의 경우
액션-드라마가 -0.43이니 드라마 보다는 액션을 선호
판타지-사실주의는 0.21이므로 판타지 보다는 사실주의를 선호
아이템 요인 Q
영화 \ 잠재요인 | 액션-드라마 | 판타지-사실주의 |
기생충 | 0.31 | 0.60 |
겨울왕국 | 0.61 | -0.82 |
부산행 | -0.38 | -0.61 |
백두산 | -0.79 | 0.08 |
기생충의 경우
드라마에 가깝고
사실주의 성향이 강함
위 2개의 feature space를 살펴보면, 누가 어떤 영화를 좋아할지를 알 수 있음
사용자 \ 영화 | 기생충 | 겨울왕국 | 부산행 | 백두산 |
Bob | -0.0073 | -0.4345 | 0.0353 | 0.3565 |
Sue | 0.6481 | -0.5653 | -0.6790 | -031713 |
Mary | 0.1959 | 0.4455 | -0.2439 | -0.5475 |
Alice | -0.0374 | 0.5266 | 0.0082 | -0.3874 |
차원에서의 배치와 score가 상관 관계에 있음을 알 수 있다.
'AI > Big data' 카테고리의 다른 글
Matrix Factorization impl 2 (0) | 2022.03.25 |
---|---|
Matrix Factorization impl. (0) | 2022.03.25 |
CF 정확도 개선 (0) | 2022.03.22 |
CF considering user bias (0) | 2022.03.22 |
최적의 이웃 크기 설정 (0) | 2022.03.22 |