본문 바로가기
Reading

Using Content-Based Filtering for Recommendation

by 볼록티 2020. 1. 21.
728x90
반응형

-> 하고자 하는 것:

콘텐츠 기반 필터링의 개념과 문제점에 대한 설명을 한다. 콘텐츠 기반의 필터링 방법을 통한 추천시스템의 구현을 보여준다. 

 

  -> 문제를 해결하기 위한 방법:

CF가 가진 explicit한 사용자의 데이터(좋아요! 구독! 시청시간! 등..)는 항상 사용자가 행동을 어떻게서든 표시를 해줘야하는데 이는 사실상 믿고 더블로 가기 힘들다. 그렇기 때문에 implicit한 데이터라고 할 수 있는 사용자의 행동패턴을 통해서 피드백을 확보한다. 그래서 사용자 모델은 역동적이고 긍정적인 상황속에서 학습이 되야한다고 한다.

 구현. 

 구현을 위한 데이터는 아래의 그림3에서 보이는 데이터 베이스에 속한 유저 프로필, 페이지 인덱스가 있다. 웹 페이지에 대한 정보는 오프라인으로 수집이 된다. 콘텐츠를 위한 데이터는 도메인은 집 보수관련된 article이고 결국 이에 대한 tf-idf 행렬이다. 유저 프로필은 사용자 행동을 관찰함으로써 온라인으로 수집한다. 이 후 웹페이지에서 parser는 terms을 추출하고 tf-idf가중치를 계산한다. 

 프로파일러와 멤버십은 사용자 요청에 반응한다. 멤버십은, 사용자가 회원가입이 되어 있어야 이름, 암호 등의 여러 정보가 데이터베이스에 저장되고 결국 개인화된 추천을 받을 수 있게 된다. 프로파일러의 구성요소는 방문 페이지를 추적한다. 처음에는 프로파일은 비어있다. recommender는 인덱싱된 페이지와 사용자의 프로필을 비교함으로써 관련 웹페이지를 하이퍼링크를 씌워서 추천하게 된다. 이러한 개인화 맞춤 추천 시스템을 PRES(Personalized Recommendation System) 추천시스템라고 한다. 

 

 

실험 결과로는 제시한 추천 중에서는 평균적으로 1개 이상은 관련 있는 주제였음을 나타내는 것으로 보였다. 동일한 개념이라도 여러 용어로 설명되어 추천에 부정적 영향을 좀 끼친다고 한다. 벡터 공간 모델을 개선하여 더 나은 결과를 얻을 수 있을 것이다. 하지만 콘텐츠 기반 필터링 시스템은 사용자의 향후 관심사에 대한 예측을 할 수가 없다. 그렇기에 협업 필터링과  콘텐츠 기반 필터링이 결합하면 이 PRES의 효율성이 더욱 향상될 것이다.

 

  -> 풀지 못한 문제(한계점): 

본 논문에서 지적한 문제점은 콘텐츠 기반 추천은 항상 사용자가 흥미를 잃었는지도 모르고 계속 유사한 콘텐츠만을 추천한다는 것이다. 향후 사용자의 흥미를 예측하지 못한다는 점에서 협업 필터링과의 결합의 효율성을 암시하였다.

 

-> 나의 생각

근본적으로 콘텐츠 기반 필터링의 문제점인 사용자의 취향에 대한 "예측"이 불가능 한 것에는 변함이 없고, 문제가 명확한 만큼 이를 보완하기 위해 계속해서 하이브리드 필터링과 같은 방법들을 여러 도메인의 데이터를 가지고 개선 효과를 보고 있으니 하이브리드 필터링 관련 논문을 더 읽어봐야겠다. 

 암시적(implicit)데이터를 사용자의 웹페이지 이동 경로를 활용했다는 점에서 실시간 구현에 있어서 서버나 인터넷, 네트워크 관련 지식도 필요하다고 생각이 들었다. 똑똑한 데이터 수집 기술이 필요하다. 암시적 데이터를 계속해서 피드백하여 사용자 행렬을 꾸준히 업데이트 시키는 것은 좋은 알고리즘이라고 생각한다. 콘텐츠 기반 필터링을 실제 구현하면 이렇게 상대적으로 변화에 정적인 콘텐츠 데이터 보다는 역동적으로 계속 변하는 사용자 행렬에 대한 대처가 생각보다 힘들겠구나 라는 생각과 함께 현재 사용중인 사용자에게는 그렇게 나쁘지 않을 것이라는 생각이 드는게, 요새는 검색어와 문서 간의 매칭률 알고리즘이 좋아서 금방 자료를 찾을 수 있기 때문에 사용자의 먼 취향까지 생각하지 않아도 될테니까. 하지만 사용자의 흥미를 끌어들여야 하는 각종 SNS나 스트리밍 사이트 들은 콘텐츠 기반만 가지고는 사용자의 흥미를 쉽게 잃어버리게 만들수도 있을 것 같다. 콜라보가 필요하다는 것을 다시 한 번 느낀다.

728x90
반응형

댓글