본문 바로가기
Reading

Recommender systems survey(1)

by 볼록티 2020. 1. 12.
728x90
반응형

Recommender systems survey.(2013)

author: J.Bobadilla, F.Ortega, A.Hernando, A.Gutierrez

 

이번에 볼 논문은 추천시스템에 대한 서베이를 한 논문이다. 추천 시스템에 대한 전반적인 내용들로 협업필터링, 유사도 측정, 예측, 콜드스타트 문제 등에 대한 설명을 한다.

 

 Abstract

 추천 시스템은 웹과 병행되어 개발이 되었다. 초기에는 demo-graphic, content-based, collaborative filtering을 기반이었다. 현재 이러한 시스템은 사회적 정보화 시스템을 통합하고 있다. 미래에는 사물인터넷에서 암시적, 지역적, 개인 정보를 사용하게 될 것이다. 추천시스템 뿐만아니라 협업필터링, 알고리즘에 대한 개요를 설명한다. 또한 이 시스템에 대한 독창적인 분류를 제공하고, 향후 구현 영역을 식별하며, 과거, 현재 또는 미래 중요도에 대해 선택된 특정 분야들을 개발한다.

 

1.Introduction

 추천 시스템(RS)은 일련의 항목(예: 영화, 노래, , 농담, 가젯, 애플리케이션, 웹사이트, 여행지e-러닝 자료)에 대한 사용자들의 선호도에 대한 정보를 수집한다. 정보는 명시 적으로 획득하거나 (일반적으로 사용자의 등급을 수집하여) 암묵적으로 [134,60,164] (일반적으로 노래 들었던거, 응용 프로그램 다운로드한 거, 사이트 방문 읽기와 같은 사용자의 행동을 모니터링하여) 얻을 수 있다. RS는 사용자의 인구통계학적 특징(연령, 국적, 성별 )을 사용할 수 있다. 팔로워, 후속, 트위터, 게시물과 같은 사회 정보는 2.0에서 흔히 사용된다.사물 인터넷(예: GPS 위치, RFID, 실시간 건강 신호)에서 정보를 사용하는 경향이 증가하고 있다. RS는 사용자에게 항목의 예측 및 추천제공하기 위해 다양한 정보 소스를 사용합니다.추천에 정확성, 신기성, 분산성, 안정성과 같은 요소들의 균형을 맞추려고 노력한다. 협업 필터링(CF) 방법은 콘텐츠 기반, 지식 기반 또는 사회적 필터링 기법과 함께 자주 사용되고, 추천에서 중요한 역할을 한다. 

 CF는 인간이 경험을 통해 결정을 내리는 방식에 기반을 두고 있습니다. 우리 자신의 경험 외에도, 또한 비교적 많은 지인들로부터 우리 각자의 경험과 지식에 대한 우리의 결정을 기초로 한다. 최근 인터넷에서의 RS 구현이 증가하여 다양한 분야에서의 사용이 촉진되었다 [171]. 가장 일반적인 연구 논문은 영화 추천 연구에 중점을 둡니다 [53,230]. 그러나 RS에 대한 많은 문헌은 음악 [134,162,216], 텔레비전 [238,18], 서적 [164,88], 문서 [206,184,183,185], elearning [241,30], 전자 상거래 [104,54], 시장 애플리케이션 [67] 및 검색 [154]과 같은 다른 주제에 중점을 두고 있습니다. RS의 시작 부분에서 가장 많이 사용되는 필터링 종류 (collaborative, content-based and demographic)는 [177]에 설명되었습니다. Breese et al.[43]은 CF에 대한 다른 알고리즘의 예측 정확도를 평가했다. 나중에 고전 논문 [94]은 협력 필터링 RS를 평가하기 위한 기초를 설명합니다.
 RS의 진화는 기술의 이점을 얻기 위해 서로 다른 기술을 병합하는 RS의 하이브리드 기술의 중요성을 보여 주었습니다. [47]에서 하이브리드 RS에 초점을 맞춘 조사가 발표되었습니다. 그러나 최근 년간 소셜 네트워크를 통해 인기를 끌게 된 기술인 소셜 필터링의 역할을 다루지 않는다.

 이웃 기반 CF는 RS의 시작 부분에서 가장 인기있는 추천 방법이었습니다. Herlocker et al.[93]은 이웃 기반 예측 시스템을 설계하기 위한 일련의 지침을 제공합니다. Adomavicius와 Tuzhilin [3]은 RS의 연구원이 '차세대 RS'에 집중해야하는 가장 복잡한 영역에 대한 개요를 제시합니다. 콘텐츠 기반 방법의 제한된 콘텐츠 분석과도한 전문화, CF 방법의 cold-start 및 sparse, 모델 기반 기술, 침입성, 유연성 (실시간 맞춤화) .

 연구자들이 RS를 개발하는 동안, 이 분야에서 가장 중요한 이슈를 요약하는 다른 조사 논문이 출판되었다. 이 모든 기술의 모든 세부 사항을 논문에서 보여줄없다는 점에서,이 출판물은 저자들이 RS의 진화를 이해하는가장 적합하다고 느낀 이슈를 선정합니다.

 기존의 조사는 RS 분야의 가장 관련있는 방법과 알고리즘에 초점을 맞추고 있지만, 대신 우리의 조사는 전통적인 웹에 기반한 번째 단계에서 현재 3 단계 (사물인터넷)로 진행중인 소셜 웹에 기반한 현재 번째 단계까지 RS의 진화를 향상 시키려고 합니다. 연구는 새로운 독자의 관심분야에 유용한 연구로, RS 기반, k-Nearest Neighbors 알고리즘, cold-start 문제, 유사도 측정, RS 평가 가지 전통적인 주제를 조사하였다. 기존의 설문 조사에서 고려하지 않은 새로운 주제를 가진 나머지 논문들은조사를 통해 RS의 숙련된 독자는 사회 정보와 관련된 깊이 개념, 분류접근법(사회적 필터링: 팔로워, 후속, 신뢰, 평판, 신뢰성, 콘텐츠 기반 소셜 데이터 필터링, 사회적 태그분류), 사용자 그룹에 추천추천 설명을 연구할 것이다. 새로운 애플리케이션과 미래의 애플리케이션에 관심이 있는 독자들은 위치 인식 RS 트렌드Bioinspiration 접근법에서 가장 최근의 작품에 대해 알려줌으로써이 조사가 유용할 것입니다. 또한 프라이버시, 보안, P2P 정보사물 사용 인터넷(RFID 데이터, 건강 매개변수, 감시 데이터, 원격 조작, 원격 존재 )과 같은 가지 중요한 문제를 발견할 것이다.).

 RS가 서로 다른 정보 소스(collaborative, social, demographic, content, knowledge-based, geographic, sensors, tags, implicit and explicit data acquisition, etc.)을 사용하는 경향이 있다는 생각에 따르면, 조사는 서로 다른 알려진 기술을 통해 추천을 하는 것에 기초한 하이브리드 아키텍처를 강조한다(각각은 특정 정보원을 대신하여 설계되었다).

 조사의 품질의 대부분은 적절한 레퍼런스의 선택으로 측정할 수 있습니다. 이 조사는 최근 인용 횟수와 논문이 출판된 저널의 중요성과 같은 요소를 고려하여 선정된 249개를 참조하였습니다.

 이 기사의 나머지 부분은 다음과 같이 구성됩니다. 2에서는 RS 분야에서 가장 중요한 논문을 선택하는 사용된 방법론 간결하게 설명합니다. 3절에서는 전통적인 웹의 정보를 기반으로 추천을 제공하는 사용되는 방법, 알고리즘모델, 등급, 인구통계학적 데이터항목 데이터(CF, 인구통계학적 필터링, 내용 기반 필터링하이브리드 필터링)에 대해 설명한다.4절에서는 RS 예측추천의 품질을 평가하기 위한 조치 대해 설명한다. 5절에서는 신뢰, 평판, 신뢰성과 같은 개념을 통해 재추천을 하기 위해 Web 2.0의 사회 정보를 사용하는보여준다. 또한 소셜 정보(예: 소셜 정보)를 위한 콘텐츠 기반 기법을 기술한다.태그와 포스트). 6절에서는 사용자 그룹에 대한 추천과 추천에 대한 설명이라는 가지 중요한 영역에 초점을 맞춘다. 7에서는 Bioinspiration 접근 방식과 위치 인식 RS와 같은 3.0 정보 필터링을 다루는 추천 시스템 추세에 중점을 둡니다. 8절에서는조사의 관련 연구와 기여도를 설명한다.

 결론에서는 RS 히스토리를 요약하고 알고리즘 개발평가 척도 개발에 사용된 데이터 유형 중점을 둡니다.결론 섹션은 또한 가까운 장래에 과학 공동체에서 RS 연구의 초점이것으로 예상되는 7 가지 새로운 영역 나타냅니다.

 

 2.Methodology

 RS 분야에서 가장 대표적인 주제와 용어를 결정하기 위해 초기 연구가 수행되었습니다. 첫째, 300개의 RS 논문이 저널에서 선정되었으며, 현재자주 인용되는 기사에 대한 우선 순위가 높았다. 다음으로, 300편의 논문에서 가장 중요한 용어를 추출하였다.우리는 키워드에 가장 중점을 두었고, 제목에 중점을 두지 않았으며, 마지막으로 추상적인 것에 중점을 두지 않았습니다.

 나머지 풀에서 나온 기사, 전치사, 범용어일반적인 단어를 간과하고, RS 분야에 대표되는 300개의 용어를 선택했다. 기사의 단어의 중요성을 저장한 기사 단어의 행렬에서 우리는 단어들 사이의 관계 트리를 생성했습니다. 그림. 1은 그래프의 가장 중요한 부분을 묘사하고 있다(공간 제약으로 인해 전체 트리는 표시되지 않지만 그림에서 추가 재료로 제공된다.  단어 사이의 짧은거리는 가장 높은 유사성을 나타냅니다. 따뜻한 색은 관계에 대한 신뢰성을 나타냅니다. 노드의 크기는 $N^{k},N^{t},N^{a}$ (키워드, 제목 및 요약에서 의미 있는 단어의 수)$N^{k}_{w},N^{t}_{w},N^{a}_{w}$ (단어 $w$ 키워드, 제목요약에서 나타나는 횟수)의 함수로서 단어의 중요성을 나타낸다. 단어$w$ 의 중요성을 결정하는 데 사용되는 방정식은 다음과 같다. 

$f_{w} = \frac{1}{3}(\frac{N^{k}_{w}}{N^{k}}+\frac{N^{t}_{w}}{N^{t}log\frac{N^{a}}{N^{t}}}+\frac{N^{a}_{w}}{N^{a}\frac{N^{a}}{N^{t}}})$

 

예제: $N_{k}=5$인 키워드, $N_{t} = 11$ , $N_{a} = 52$인 논문을 예시로 들어 본다. 우리는 $f_{factorization}$과 $f_{matrix}$ 값을 얻을 것이다. 여기서 'factorization'이라는 단어는 키워드에서 한 번, 제목에서 1번 요약에서 3번 나타난다. 'matrix'라는 단어는 키워드에는 나타나지 않지만 제목에 한 번, 추상에서 번 나타난다. 이 단어의 중요성은 다음과 같다.

$f_{factorization} = \frac{1}{3}(\frac{1}{5}+\frac{1}{11log\frac{52}{11}}+\frac{3}{52\frac{52}{11}})$

$f_{matrix} = \frac{1}{3}(\frac{0}{5}+\frac{1}{11log\frac{52}{11}}+\frac{2}{52\frac{52}{11}})$

 

그림 1에 묘사된 정보는 RS의 가장 관련성이 높은 측면을 식별하는 데 사용됩니다. 그래프 그리고 관련 용어에서 가장 중요한 단어로 표현된다.이 참조 문헌들은 다음과 같은 기준에 따라 선정되었다. (a) 그림에서 단어의 중요성에 따른 주제의 탁월성.1; (b) 그것의 역사적 기여 (고전적 참고 기사의 상당 부분이 포함됨); (c) 기사가 인용되는 횟수; (d) 영향 요인이 있는 저널에 게시된 기사 회의워크샵보다 선호되었다. (e) 최근 기사 수년 전에 출판된 기사보다 선호되었다. 그림 2는 참고문헌의 시간적 분포 보여준다.

 본 연구는 그림 1에서 제시한 단어 군집을 이용하여 조사 설명을 구조화하였다. 개념에 대해 설명 : (1) 그림에 따라 그들의 키워드와 관련된 모든 단어를 얻었다. (2) 300편의 논문 중에서 개념과 관련된 단어 집합과 더 관련이 있는 논문을 확인하였고, (3) 논문의 중요성과 인용 횟수와 같은 기준에서 높은 가치를 가진 논문을 우선시하여 개념을 다루는 논문의 하위 집합을 선택하였으며, (4) 논문이 참조되는 횟수의 균형을 맞추려고 노력하여 선정된 300편의 논문 대부분을 참조하고자 하였다.

Fig. 1. Words represented in the recommender systems research field. Short distances indicate higher similarities, and a warm color indicates greater reliability. The size of the nodes is proportional to the importance of the words.
Fig. 2. Temporal distribution for the referenced papers.

 

 3. Recommender systems  foundations

 여기선 전통적 RS가 기초하는 가장 관련 있는 개념을 제시한다. 여기서 우리는 고전 분류학, 알고리즘, 방법, 필터링 접근법, 데이터베이스 등에 대한 일반적인 설명을 제공한다. 한, 기존의 추천 모델과 그 관계를 묘사한 그래픽을 보여주고, 다음으로 콜드 스타트 문제를 설명하여, RS가 적은 양의 데이터를 포함할 때 협업 추천을 하는 것이 어려운 점을 설명한다. 다음으로, 우리는 CF에 기반한 RS를 구현하기 위해 가장 많이 사용되는 알고리즘인 kNN 알고리즘을 기술할 것이다. 마지막으로 사용자와 아이템을 비교하기 위해 제안된 유사도 측정치에 대해 기술한다. 이러한 유사도 측정의 품질을 평가하는 그래픽 양식을 보여 줄 것이다.

 

 3.1 Fundamentals

 RS 추천 생성하는 프로세스는 다음 고려 사항 기반으로 합니다.

  • 데이터베이스에서 사용할 수 있는 데이터 유형(예: 등급, 사용자 등록 정보, 순위가 매겨질 수 있는 항목의 기능내용, 사용자 간의 사회적 관계위치 인식 정보).
  • 필터링 알고리즘은 (예: demographiccontent-based,collaborativesocial-basedcontext-aware and hybrid) 을 사용.
  • 선택한 모델(예를 들어, 데이터의 직접적인 사용에 기초한 모델: ‘memory-based또는 이러한 데이터를 사용하여 생성된 모델: ‘model-based’).
  • 또한 사용된 기술은 확률론적 접근, 베이지안 네트워크, 최근점 이웃 알고리즘, 신경망유전 알고리즘과 같은 bio-inspired algorithm, 퍼지 모델, 희소성 레벨 줄이기 위한 단수 분해 기법 등이 고려됩니다.
  • 데이터베이스의 희소성 수준과 요구되는 확장성.
  • 시스템의 성능(시간메모리 소비).
  • 신규성, 범위정밀성뿐만 아니라 예측Top-N 추천고려한다.

 RS의 연구는 해당 분야의 연구원이 개발한 기술, 방법알고리즘에 대한 조사를 용이하게 하기 위해 대표적인 공개 데이터베이스 세트를 사용해야 합니다이러한 데이터베이스를 통해 과학계는 실험을 복제하여 그들의 기술을 검증하고 개선할있다. 1은 문헌에서 가장 자주 언급되는 현재 공공 데이터베이스를 나열한다. 마지막으로, Fmand Delicious는 암묵적인 등급과 사회 정보를 통합합니다. 그들의 데이터는 GroupLens 연구 그룹이 주최한 HetRec,2011 데이터 세트에 발표된 버전에서 생성되었습니다.

 RS의 내부 기능은 필터링 알고리즘으로 특징지어진다.가장 널리 사용되는 분류는 필터링 알고리즘을 [3,51,203] : (a) collaborative filtering, (b) demographic filtering, (c) content-based filtering (d) hybrid filtering 으로 나눕니다.

 

 콘텐츠 기반 필터링[131,11,158]은 과거에 만들어진 사용자 선택에 기초하여 추천을 한다. (예:). 기반 전자 상거래 RS에서 사용자가 과거에 일부 소설 영화를 구입했다면, RS는 아마도웹사이트에서 아직 구입하지 않은 최근의 소설 영화를 추천할 것이다. 콘텐츠 기반 필터링 또한 추천을 하고자 하는 대상 콘텐츠를 사용하여 추천생성합니다. 따라서 특정 콘텐츠는 텍스트, 이미지사운드와 같이 분석 될 수 있습니다. 이러한 분석을 통해 사용자가 구매, 방문, 청취, 시청순위 매긴 것에 있는 항목과 유사한 항목을 추천하는 기준으로 대상간에 유사성을 설정할 수 있습니다.

 

 인구 통계 학적 필터링 [177,126,185]은 공통된 선호를 가질만한 특정 공통 개인 속성 (, 연령, 국가 등) 따라 정의됩니다

 

협업 필터링 [3,94,92,51,212]을 사용하면 사용자가 요소 집합에 대한 등급을 부여할 수 있습니다 (예 :). 비디오, 노래, 영화 등. CF 기반 웹사이트)에서, 충분한 정보가 시스템에 저장될 때, 우리는 그들과가장공통점이 있다고 생각하는사용자들에 의해 제공된정보에기초하여사용자에게추천을 할 수 있다. CF는 흥미로운 공개 연구분야이다[232,34,32]. 앞서 언급했듯이 사용자 등급도 암묵적으로 획득할 수 있다(예:노래를 들은 횟수, 상담한 정보 및 리소스에 대한 접근).

 

 협업 필터링을 위해 가장 널리 사용되는 알고리즘은 k Nearest Neighbors (kNN) [3,203,32]입니다.사용자 버전에서, kNN은 활성 사용자에 대한 추천을 생성하기 위해 다음 가지 작업을 실행한다: (1) 활성 사용자 a에 대한 k 사용자 이웃(이웃)을 결정하고, (2) a에 의해 평가되지 않은 항목에서 이웃에 대한 등급으로 접근하는 방법을 구현하고, (3) 2단계 예측값을 추출한 다음 상위 N 개의 추천을 선택한다.

 

 하이브리드 필터링[47,185]. 일반적으로 CF와 인구 통계 학적 필터링 [224] 또는 CF의 조합을 콘텐츠 기반 필터링 [18,60]과 사용하여 이러한 기법의 장점을 활용합니다.하이브리드 필터링은 일반적으로 유전 알고리즘 [76,99], 퍼지 유전 [7], 신경 네트워크 [133,62,192], 베이지안 네트워크 [50], 클러스터링 [209] 및 잠재 특징 [199]과 같은bioinspiration 또는 확률 론적 방법을 기반으로 합니다.

 

 널리 받아 들여지는 분류법은 권장 방법을 메모리 기반모델 기반 방법 범주로 나눕니다

 

 메모리 기반 방법들[3,51,123,214]. 메모리 기반 방법 (a) 항목에 대한 사용자 평가 행렬에만 작용하는 방법 및 (b) 참조 프로세스 이전에 생성된 등급을 사용하는 방법(, 그 결과는 항상 업데이트된다)으로 정의될 수 있다.메모리 기반 메트릭은 일반적으로 유사도 메트릭을 사용하여 비율에 따라 사용자 또는 항목 사이의 거리를 얻습니다.

 

 모델 기반 방법[3,212]. RS 정보를 사용하여 추천을 생성하는 모델을 만듭니다. 논문에서는 사용자로부터 새로운 정보가 모델을 능가하는 경우 모델 기반의 방법을 제안한다.가장 널리 사용되는 모델들우리는 Bayesian 분류기 [59], 신경망 [107], 퍼지 시스템 [234], 유전 알고리즘 [76,99], 잠재 특징 [251] 및 행렬 인수 분해 [142]를 가지고 있습니다.

 

 RS 데이터베이스에서 높은 수준의 희소성으로 인한 문제를 줄이기 위해 특정 연구는 차원 감소 기술 사용했습니다 [202]. 이 감소 기법은 MatrixFactorization [124,142,143]을 기반으로 한다. 매트릭스 인수 분해는 특히 대형 RS 데이터베이스를 처리하고 확장 가능한 접근법을 제공하는 적합합니다 [215]. 모델 기반 기법인 Latent Semantic Index(LSI)축소 기법인 Singular Value Decomposition(SVD)전형적으로 결합된다[224,244,48].SVD 방법은 좋은 예측 결과를 제공하지만 계산적으로 매우 비쌉니다. 알려진 선호 정보가 시간에 따라 변경되지 않는 정적 오프라인 설정에만 배치할있습니다.

 

 RS는 클러스터링 기법 사용하여 예측 품질을 향상시키고 하이브리드 필터링에 적용할cold-start 문제를 줄일 수 있습니다. 하이브리드 RS [209,237]에서 항목 클러스터를 형성하는 것이 일반적입니다. 다른 일반적인 접근법은 항목과 사용자(bi-clustering) [252,85] 모두를 클러스터링합니다. 사회적 정보를 포함하는 RS는 태그 지정 [208], 명시적 사회적 링크 [179] 및 명시적 신뢰 정보 [181,70]의 영역을 개선하기 위해 클러스터링되었습니다.

 

 그림 3의 그래프는 추천 프로세스의 관계와 그룹화에 있어 가장 중요한 전통적인 방법, 기술 및 알고리즘을 보여줍니다. 본 논문의 각 섹션은 추천 프로세스에 관련된 가장 중요한 측면에 대해 더 자세히 설명한다.

 

 그림3 에서 있듯이 데이터베이스에 적용된 전통적인 필터링 방법(콘텐츠 기반, 인구통계학적, 협업적)사용할 수 있다. 기반 기술(유전 알고리즘, 신경망 등)이런 종류의 정보를 활용하라.일반적인 메모리 기반 접근법은 항목 항목, 사용자 사용자, 그리고 이전 가지의 하이브리드이다. 메모리 기반 접근법과 모델 기반 접근법의 주요 목적은 사용자의 취향에서 가장 정확한 예측을 얻는 것입니다. 이러한 예측의 정확성은 MAE, 정밀도리콜 같은 고전적인 정보 검색 수단을 통해 평가 될 수 있습니다. 연구자들은 이러한 측정을 이용하여 RS 방법과 기술을 개선한다.

 

그림 3. 전통적인 추천 모델과 관계도

 

 

 

 

 3.2 Cold-start

콜드 스타트 문제 [203,3]는 초기 사용자의 평가 자료 부족으로 인해 신뢰할 수 있는 추천 만들없을 발생합니다. 우리는 새로운 커뮤니티, 새로운 항목새로운 사용자라는 가지 종류의 콜드 스타트 문제로 구분할 수 있습니다. RS에서 가장 중요한 것은 이미 운영되고 있는 문제이다.

 

 새로운 커뮤니티 문제 [204,129]는 RS를 시작할신뢰할 수 있는 추천을 생성하기에 충분한 양의 데이터 (rating)를 얻는 어려움을 나타냅니다. 이 문제를 해결하기 위해 가지 공통점이 있습니다. 사용자는 다른 수단을 통해 rating을 만들도록 권장합니다. 충분한 사용자와 등급(rating)이 있을 때 CF 기반 추천을 생성하자.

 

 새로운 항목 문제 [174,172]는 RS에 입력되는 새로운 항목이 일반적으로 초기 등급이 없으므로 추천되지 않기 때문에 발생합니다. 차례로, 추천되지 않는 항목은 사용자 커뮤니티의 많은 부분에서 눈에 띄지 않으며, 인식하지 못하기 때문에 등급을 매기지 않습니다. 이렇게 하면 RS의 항목 집합이 등급 / 추천 프로세스에서 제외되는 악순환에 들어갈 수 있습니다. 새로운 아이템 문제는 RS는 e-commerce, 블로그, 사진, 비디오 등과 같은 곳의 아이템이 아닌 다른 수단(예; 영화)을 통해 발견될 수 있는 아이템들에 있어서 RS에 영향을 끼치게 된다. 문제에 대한 공통적인 해결책은 시스템의 새로운 항목을 평가하는 책임이 있는 동기 부여된 사용자 집합을 갖는 것입니다.

 

 새로운 사용자 문제 [190,197]는 운영중인 RS가 직면한 어려움하나를 나타냅니다. RS의 새로운 사용자는 아직 RS에서 등급을 제공하지 않았기 때문에 메모리 기반 CF를 기반으로한 개인화된 추천받을없습니다. 사용자가 번째 등급에 진입하면 RS가 개인화된 추천제공할 것으로 예상하지만 RS에서 소개된 등급 수는 일반적으로 신뢰할 수 있는 CF 기반 추천만들있을만큼 충분하지 않으므로 RS에게 기대했던 추천을 받지 못했다고 새로운 사용자는 느낄 수 있습니다. 또한 그들은 서비스의 사용을 중단할 수도 있습니다.

 

 새로운 사용자 문제를 해결하기 위한 일반적인 전략은 사용자가 사용할 수 있는 데이터를 기반으로 추천을 할 수 있도록 등급 집합에 대한 추가 정보로 전환하는 것으로 구성됩니다. cold-start 문제는 하이브리드 접근법 (보통 CF- 내용 기반 RS, CF- 인구 통계 based RS, CF- social based RS) [118,140]을 사용하여 종종 직면합니다. [135] 도메인 사이트에 대한 콘텐츠 정보를 통합하기 위해 교차 레벨 연관 규칙을 사용하는 새로운 콘텐츠 기반 하이브리드 접근법을 제안합니다. Kim et al.[118]는 사용자의 항목에 대한 선호도를 파악하고 필터링하기 위해 접근 방식으로 사용되는 협업 태깅(collaborative tagging)을 사용하며 협업 태깅 데이터 희소성과 콜드 스타트 사용자의 장점을 탐구합니다 (협력 태깅 delicious 사이트를 크롤링하여 데이터를 수집했습니다). Weng et al. [228]은 사용자의 항목 선호도와 추가 분류 학적 선호도 사이의 암묵적인 관계를 결합하여 나은 품질의 추천 하고 cold-start 문제를 완화합니다. Loh et al. [140]은 과학 출판물에서 추출한 정보로 사용자의 프로필을 나타냅니다. Martinez et al. [148]은 CF 알고리즘과 지식 기반 알고리즘을 결합한 하이브리드 RS를 나타냅니다. Chen과 He [56]는 인구 통계 학적 벡터를 기반으로한 다수의 공통 용어 / 용어 빈도 (NCT / TF) CF 알고리즘을 제안합니다. Saranya와 Atsuhiro [199]는 확률 론적 모델을 사용하여 다중 속성 레코드로 표현된 항목에서 추출된 잠재 기능을 사용하는 하이브리드 RS를 제안합니다. .[173]는 새로운 접근법을 제안합니다. 그들은 필터봇을 사용하고 사용자 또는 아이템 속성에만 따라 항목을 평가하는 대리 사용자(surrogate users) 사용합니다.

 

 3.3 The k nearest neighbors recommendation algorithm

 kNN 추천 알고리즘 협업 필터링 추천 프로세스를 위한 참조 알고리즘이다. 그것의 주요 장점 단순하고 합리적으로 정확한 결과입니다. 그것의 주요 약점 낮은 확장성과 RS 데이터베이스의 취약성이다.이 절에서는알고리즘 함수에 대한 일반적인 설명을 제공한다.

 kNN 알고리즘 기반으로한 CF는 개념적으로 간단하며, 순방향 구현을 통해 구현됩니다. 또한 일반적으로 양질의 예측과 추천을 생성합니다. 그러나 RS 데이터베이스의 희소성 [142,29]이 높기 때문에 유사도 측정은 종종 처리 문제 (일반적으로 사용자와 항목의 비교에 대한 상호 등급이 불충분한 )와 cold-start 상황 (사용자와 순위가 낮은 항목) 에 맞닥들이게 됩니다.[204,98,36,135].

 kNN 알고리즘 다른 주요 문제는 낮은 확장성 [142]입니다. 데이터베이스(Netflix )의 크기가 증가하면서(수만 명의 사용자, 수만 개의 항목, 수천만 개의 순위) 활성 사용자에 대한 이웃 생성 과정은 너무 느려진다. 유사성 측정은 새로운 사용자가 데이터베이스에 등록되는 것에 맞춰서 자주 자주 처리가 되어야 한다. kNN 알고리즘 항목별 버전이 확장성 문제를 현저히 감소시킨다[200]. 이를 위해, 이웃들은 항목에 대해 계산된다; 그들의 상위 n개의 유사도 들이 저장되고, 일정 기간 동안, 저장된 정보를 이용하여 예측추천들이 생성된다.저장된 정보에는 이전 처리 / 저장소의 등급이 포함되지 않지만 항목에 대한 구식 정보는 사용자의 구식 정보 보다 민감합니다.

 CF 연구의 반복적인 주제는 사용자(또는 항목)에 대한 기존 유사성을 정확하고 정확하게 계산하기 위한 메트릭을 생성하는 것이다. 전통적으로 일련의 통계적 메트릭은 피어슨 상관 관계, 코사인, 제약 피어슨 상관 관계 및 평균 제곱 차이와 같은 [3,51]을 사용했습니다. 최근 RS[31,35]의 제약과 특성에 맞게 메트릭스가 설계되었다. 또한, cold-start 상황에서의 기능에 적합한 메트릭을 설계하여, 많은 관련 사용자와 아이템에 많은 중요성을 부여하기 위해 관련성(의미) 개념을 도입하였다[34,227].

 kNN 알고리즘은 유사도 측정에 기초한다. 다음 부분절에서는 현재 RS 유사도 측정에 대한 세부사항을 제공한다. 유사도 접근법은 일반적으로 사용자의 항목을 기반으로 사용자 $x$ $y$(사용자 사용자) 사이의 유사도를 계산한다. item to item kNN version은 두 아이템 $i$ $j$ 유사도를 계산한다.

 kNN 알고리즘의 형식적 접근은 [32]에서 찾을 수 있다.이 절에서는 이 알고리즘의 실례가 되는 예를 제공할 것이다. 추천 방법은 다음의 세 단계를 기반으로 한다.

 (a) 선택된 유사도 측정을 이용하여 사용자 $a$ 위한 $k$ 이웃 세트를 생성한다. $a$ 대한 $k$ 이웃은 사용자 $u$ $k$(유사도)만큼 가까운  사용자이다.

 (b) 활성 $a$와 유사한 $k$ 사용자 집합(이웃)이 계산되면, 사용자 $a$에 대한 항목 $i$의 예측을 얻기 위해, 다음과 같은 집계 접근법 중 하나가 자주 사용된다: 평균, 가중치 합 및 조정된 가중치 집계(평균으로부터의 편차).

 (c) 최상위 $n$개의 추천을 얻기 위해, 우리는 우리의 예측에 따라 사용자에게 가장 만족스러운 $n$개의 아이템을 선택한다.

그림4. 사용자x사용자 knn 알고리즘 행렬, k=3, 유사도 측정: 1-(평균 제곱 차이). 집계 접근법: 평균

그림.4는 사용자를 이용한 사례연구를 보여준다. kNN 알고리즘의 항목 x 항목 에 대해서[200,77] 다음 가지 작업을 수행한다. (1) 데이터베이스의 항목별 $q$ 항목 이웃을 결정한다. (2) 활성 사용자 $a$에 의해 순위가 매겨지지 않은 항목 $i$에 대해 $i$ $q$ 이웃으로부터의 등급을 기반으로 예측을 계산한다. (3) 활성 사용자에 대한 상위 $n$개의 추천(일반적으로 $a$로부터 $n$개의 주요 예측)을 선택한다. 단계 (1)은 주기적으로 실행될 수 있으며, 이는 사용자$\times$사용자 버전에 대한 가속된 추천을 용이하게 한다.

 kNN 알고리즘 항목$\times$항목, 사용자$\times$사용자 버젼은  접근법에서 긍정적인 측면을 이용하기 위해 [188] 결합 될 수 있습니다. 이러한 접근방식은 일반적으로 객체들 간의 유사성을 처리함으로써 융합된다.

 

 

 3.4 Similarity measures

 메트릭 또는 유사도 측정(SM)은 사용자 (사용자 사용자 CF) 사이의 유사도 또는 아이템 (항목 CF에 대한 항목) 사이의 유사도를 결정한다. 이를 위해 사용자(사용자 사용자)가 평가한 모든 항목의 평가 또는 항목(항목 항목)을 평가한 모든 사용자의 평가를 비교한다.

 kNN 알고리즘 본질적으로 통계적 기원의 전통적인 유사성 메트릭의 사용에 기초한다. 이러한 메트릭은 유일한 정보원으로서 아이템(메모리 기반 CF)에 있는 사용자들이 만든 투표 세트(등급,rating)를 필요로 한다. 가장 일반적으로 사용되는 전통적 메트릭 피어슨 상관 관계 (CORR), 코사인 (COS), 조정된 코사인 (ACOS), 제한된 상관 관계 (CCORR), 평균 제곱 차이 (MSD) 및 유클리드 (EUC) [51,3]가 있다.

 kNN 알고리즘 사용된 SM의 대표 ative 그룹을 설명하고 비교할 것이다. 논의된 SM에는 (a) 콜드 스타트일반 사례, (b) 기반 또는 기반 모델 및 (c) 신뢰 정보 또는 등급만 사용하는 변형이 포함됩니다. 2는 이 섹션에서 테스트할 메모리 기반 CF SM의 분류를 보여줍니다.

표2. 테스트된 협업 필터링 유사도 측정

 최근 새로운 메트릭 (JMSD)발표되었는데, 등급의 수치 정보를 사용하는외에도 (평균 제곱 차이로) 이들 (Jaccard를 통해)의 배열에 의해 제공되는 숫자 정보를 사용합니다 [31]. 오르테가 .[169] 가장 가능성있는 사용자를 유지하면서 k-neighbur 선택 프로세스에서 대표적인 사용자를 제거하기 위해 Pareto 우위(Pareto dominance)를 사용하여 사전 필터링 프로세스를 수행합니다.

 최근 [35]에 등장한 메모리 기반 CF SM의 전문화는 비교된사용자 (사용자 사용자) 또는 비교된 항목 (항목 항목)의 등급으로 제한하는 대신 모든 사용자의 투표에 포함된 정보를 사용합니다.우리는SM SING(단일성)부를 것이다.

 생성된 모델을 기반으로 사용자 또는 아이템 간의 유사성을 나중에 결정하기 위해 사용자 등급의 전체 세트(the full set of user's ratings)에서 모델(모델 기반 CF)을 생성할 가능성이 존재한다. 이 초점의 잠재적인 이점 가지 모두에서 달성된 성능(시간 소비)에서 얻은 정확도의 증가다. 단점 가장 최근에 입력된 등급 집합을 고려하기 위해 모델을 정기적으로 업데이트해야 한다는 것입니다

 

 Bobadilla [33]은 유전 알고리즘을 사용하여 생성된 모델을 기반으로한 메트릭을 제공합니다.우리는SM GEN(유전학 기반)부른다.

 인터넷상의 2.0 웹사이트의 증가로 인해 새로운 사회 정보를 이용할 수 있는 메트릭(친구, 팔로워, 팔로우ed )이 등장하였다. 이러한 SM의 대부분은 신뢰, 평판신뢰성과 관련된 논문 [71,239,138]으로 그룹화되어 있지만 이 상황은 다른 분야에서도 생산됩니다 [30]. 이러한 메트릭은 모든 RS가 가지고 있는 추가 정보를 사용하기 때문에 엄격하게 메모리 기반 CF로 간주될없다. 이러한 의미에서 제안된 SM은 특정 RS 또는 최대로 사회적 정보에서 동일한 구조를 공유하는 매우 작은 RS 집합에 맞게 조정됩니다.

 SM[112,127]은 사용자의 등급 집합(메모리 기반 CF)만을 사용하여 신뢰와 평판과 관련된 정보를 추출하는 것을 목표로 한다. 이점은 그들의 사용이 모든 CF RS에 일반화 될 수 있다 것입니다. 단점은 추출된 사회 정보가 정말로 열악하다는 것입니다. 우리는 TRUST Jeong et al. [112]에서 제기된 SM이라고 부를 것입니다.현재 가지 새로운 흥미로운 SM이 많은 커버리지 [38]와 정확도 [61]를 얻습니다.

 그림. 5절에서 논의한 SM을 적용하여 생성된 여러 평가 척도의 결과를 보여준다. 그 결과 RS-맞춤 SM이 통계적 SM에 비해 우수함을 수 있었다. 메모리 기반 정보 처리와 결과 도출5는 앞서 발표된 프레임워크 설계도를 따른다[32].

그림 5. . 평가는 MovieLens 데이터의 유사성 측정에서 얻은 결과를 측정합니다. ( A ) 예측 결과 , ( B ) 추천 결과 , ( C ) 신규 결과 , ( D ) 신뢰 결과 .

 지금까지의 연구논문은 사용자의 시청률 정보를 통해 cold-start 문제를 다루고 있다. Ann PIP라는 휴리스틱 SM 제시하며 전통적인 통계 SM (Pearson correlation, cosine 등)을 능가합니다.).

 Heung-Nam [98]은 번째 실제 등급을 예측하고 이후 사용자에 대한 예측 오류를 식별하는 메소드 (UERROR)제안합니다. 이러한 오류 정보를 고려하여 특정 '오류 반사' 모델이 설계되었습니다.

Bobadilla .[36]은 신경 학습 (모델 기반 CF)에 기반한 메트릭을 제시하고 NCS라고하는 새로운 사용자 cold-start 상황에 적응합니다.

 그림. 6은절에서 제시한 cold-start SM을 적용하여 생성된 여러 평가 척도의 결과를 보여줍니다. 이러한 결과는 RS 맞춤형 SM이 통계에서 전통적인 SM보다 우월하다는 것을 보여줍니다. 데이터베이스 Movielens는 cold-start 사용자를 고려하지 않기 때문에 cold-start사용자를 달성하기 위해 이 데이터베이스의 등급을 제거했습니다. 실제로, 우리는 20에서 30개 사이의 등급을 매긴 사용자들의 5에서 20 사이의 등급을 무작위로 제거했다. 이런 식으로, 우리는 지금 2에서 20 항목 사이의 등급을 받는 사용자들을 cold-start 사용자로 간주할 것이다.

 

728x90
반응형

댓글