Matrix Factorization 2

2022. 3. 23. 18:32AI/Big data

    목차
반응형

 

 

fully connected neural network

Ÿ   rating matrix2개의 matrix로 분해하는 방법

n  사용자 잠재요인 행렬과 아이템 잠재요인행렬로 분해

 

Ÿ   rating matrix는 보통 null 값을 갖음

 

Rating matrix R = P x Q^T

rating matrix RPQ로 분해됨

 

P x Q^T를 하면 Rhat이 되며 이는 R의 예측치

Rhat이 최대한 R에 가까운 값이 되도록 하는 PQ를 구하면 이것이 추천 모델이됨

 

P x Q^T

Ÿ   P는 각 사용자의 특성 K개를 가진 행렬

Ÿ   Q는 각 아이템의 특성을 나타내는 K개의 요인 값으로 구성된 행렬

Ÿ   PQ에서 공통인 K개의 요인이 "latent factor(잠재요인)"

n  , 잠재요인을 사용해서 분석하는 모델

 

k = 2인 경우 (잠재요인이 2)

Ÿ   사용자와 영화의 특성을 두 개의 요인으로 나타냄

Ÿ   이 두 요인의 차원이

n  (액션-드라마), (판타지-사실주의)이며 모든 사용자와 영화의 특성은 각 요인에 대해 -1.0~1.0의 값으로 표현가능할 시,

 

사용자요인 P

사용자 \ 잠재요인 액션-드라마 판타지-사실주의
Bob -0.43 0.21
Sue 0.31 0.92
Mary 0.69 -0.03
Alice 0.46 -0.30

 

4명의 사용자에 대한 두 가지 잠재요인의 값 P 행렬이 위와 같다면,

첫 번째 요인(factor, 액션-드라마)에서 -1에 가까울수록 액션의 성격이 강하고, 반대의 경우 드라마의 성격이 강함

 

Bob의 경우

Ÿ   액션-드라마가 -0.43이니 드라마 보다는 액션을 선호

Ÿ   판타지-사실주의는 0.21이므로 판타지 보다는 사실주의를 선호

 

아이템 요인 Q

영화 \ 잠재요인 액션-드라마 판타지-사실주의
기생충 0.31 0.60
겨울왕국 0.61 -0.82
부산행 -0.38 -0.61
백두산 -0.79 0.08

 

 

기생충의 경우

Ÿ   드라마에 가깝고

Ÿ   사실주의 성향이 강함

 

2개의 feature space를 살펴보면, 누가 어떤 영화를 좋아할지를 알 수 있음

사용자 \ 영화 기생충 겨울왕국 부산행 백두산
Bob -0.0073 -0.4345 0.0353 0.3565
Sue 0.6481 -0.5653 -0.6790 -031713
Mary 0.1959 0.4455 -0.2439 -0.5475
Alice -0.0374 0.5266 0.0082 -0.3874

 

차원에서의 배치와 score가 상관 관계에 있음을 알 수 있다.

 

 

fully connected neural network

Ÿ   rating matrix2개의 matrix로 분해하는 방법

n  사용자 잠재요인 행렬과 아이템 잠재요인행렬로 분해

 

Ÿ   rating matrix는 보통 null 값을 갖음

 

Rating matrix R = P x Q^T

rating matrix RPQ로 분해됨

 

P x Q^T를 하면 Rhat이 되며 이는 R의 예측치

Rhat이 최대한 R에 가까운 값이 되도록 하는 PQ를 구하면 이것이 추천 모델이됨

 

P x Q^T

Ÿ   P는 각 사용자의 특성 K개를 가진 행렬

Ÿ   Q는 각 아이템의 특성을 나타내는 K개의 요인 값으로 구성된 행렬

Ÿ   PQ에서 공통인 K개의 요인이 "latent factor(잠재요인)"

n  , 잠재요인을 사용해서 분석하는 모델

 

k = 2인 경우 (잠재요인이 2)

Ÿ   사용자와 영화의 특성을 두 개의 요인으로 나타냄

Ÿ   이 두 요인의 차원이

n  (액션-드라마), (판타지-사실주의)이며 모든 사용자와 영화의 특성은 각 요인에 대해 -1.0~1.0의 값으로 표현가능할 시,

 

사용자요인 P

사용자 \ 잠재요인 액션-드라마 판타지-사실주의
Bob -0.43 0.21
Sue 0.31 0.92
Mary 0.69 -0.03
Alice 0.46 -0.30

 

4명의 사용자에 대한 두 가지 잠재요인의 값 P 행렬이 위와 같다면,

첫 번째 요인(factor, 액션-드라마)에서 -1에 가까울수록 액션의 성격이 강하고, 반대의 경우 드라마의 성격이 강함

 

Bob의 경우

Ÿ   액션-드라마가 -0.43이니 드라마 보다는 액션을 선호

Ÿ   판타지-사실주의는 0.21이므로 판타지 보다는 사실주의를 선호

 

아이템 요인 Q

영화 \ 잠재요인 액션-드라마 판타지-사실주의
기생충 0.31 0.60
겨울왕국 0.61 -0.82
부산행 -0.38 -0.61
백두산 -0.79 0.08

 

 

기생충의 경우

Ÿ   드라마에 가깝고

Ÿ   사실주의 성향이 강함

 

2개의 feature space를 살펴보면, 누가 어떤 영화를 좋아할지를 알 수 있음

사용자 \ 영화 기생충 겨울왕국 부산행 백두산
Bob -0.0073 -0.4345 0.0353 0.3565
Sue 0.6481 -0.5653 -0.6790 -031713
Mary 0.1959 0.4455 -0.2439 -0.5475
Alice -0.0374 0.5266 0.0082 -0.3874

 

차원에서의 배치와 score가 상관 관계에 있음을 알 수 있다.

반응형

'AI > Big data' 카테고리의 다른 글

Matrix Factorization impl 2  (0) 2022.03.25
Matrix Factorization impl.  (0) 2022.03.25
CF 정확도 개선  (0) 2022.03.22
CF considering user bias  (0) 2022.03.22
최적의 이웃 크기 설정  (0) 2022.03.22