본문 바로가기
728x90
반응형

분류 전체보기190

Dimensionality Reduction 이번 장에서는 차원을 축소하는 방법에 대해서 알아본다. 차원의 저주(curse of dimensionality)는 분석하는 데이터가 차원(feature)이 커지면 커질수록 row dimension에서 일어나지 않은, 기대하지 않은 현상들도 일컫게 되어 학습모델을 잘 만드는데 있어서 안좋은 요소로써 작용한다. 샘플을 늘리지 않는 상황에서 독립변수만 늘리게 되면 sample space가 굉장히 커지게 된다. 아래의 그림처럼 1차원에서는 5개의 샘플로 채웠던 것이 차원(feature, axis)이 증가할수록 sample space는 커지게 되어 데이터를 설명하기위해 필요한 데이터도 당연 늘어나게 되고, 이러한 차원이 계속해서 많아지게 되면 데이터의 패턴을 파악하기가 힘들어진다. 즉 모델을 만들기 까다로워진다... 2020. 11. 16.
Collaborative Filtering 에서의 유사도 지표 제안 논문(2). 이번 장에서는 아래의 포스팅 처럼 2가지 논문을 요약했던 것 처럼 또 2가지 논문을 살펴본 내용을 간략하게 요약하고자 한다. Collaborative Filtering 에서의 유사도 지표 제안 논문. Collaborative Filtering 에서의 유사도 지표 제안 논문. CF 알고리즘에서 새로운 유사도 지표를 제안하여 기존 보다 나은 성능을 내도록 연구한 논문에 대한 간략한 정리. 이번 장에서는 2개의 논문에 대한 정리를 한다. 기존의 어떤 문제를 해결하 data-science-hi.tistory.com 1. Integrating Triangle and Jaccard similarities for recommendation (2017). 먼저 소개할 논문은 Integrating Triangle and.. 2020. 11. 9.
Support Vector Machine(2) 이번 장에서는 SVM 관련해서 저번에 보았던 Classification 말고 이 후에 개발된 방법에 대해 알아본다. 우선 SVC에서 약간 변형된 버전을 설명해본다. $\nu$-SVM 은 기존 컨셉과 동일하다. 역시 decision boundary를 찾기 위한 목적함수가 설정이 되어있다. 기존의 dual form으로 나타낸 목적함수는 아래와 같다. $\nu$_SVM 같은 경우는 기존의 form에서 $C$ 부분이 사라지고, 새로운 term인 $\nu \rho$가 추가된 것을 볼 수 있다. 먼저 $n$이라는 것은 데이터 전체 개수이기 때문에 우리가 조절하는 parameter는 아니다. 대신에 $\nu$ (nu라고 읽는다. 누.) 라는 것은 parameter로써 우리가 조절할 수 있다. 그리고 $\rho$ 의 .. 2020. 11. 6.
쿼드압축 후 개수 세기 (프로그래머스 level2) 문제 설명 0과 1로 이루어진 2n x 2n 크기의 2차원 정수 배열 arr이 있습니다. 당신은 이 arr을 쿼드 트리와 같은 방식으로 압축하고자 합니다. 구체적인 방식은 다음과 같습니다. 당신이 압축하고자 하는 특정 영역을 S라고 정의합니다. 만약 S 내부에 있는 모든 수가 같은 값이라면, S를 해당 수 하나로 압축시킵니다. 그렇지 않다면, S를 정확히 4개의 균일한 정사각형 영역(입출력 예를 참고해주시기 바랍니다.)으로 쪼갠 뒤, 각 정사각형 영역에 대해 같은 방식의 압축을 시도합니다. arr이 매개변수로 주어집니다. 위와 같은 방식으로 arr을 압축했을 때, 배열에 최종적으로 남는 0의 개수와 1의 개수를 배열에 담아서 return 하도록 solution 함수를 완성해주세요. 제한사항 arr의 행의.. 2020. 11. 4.
삼각달팽이 (프로그래머스 level2) 문제 설명 정수 n이 매개변수로 주어집니다. 다음 그림과 같이 밑변의 길이와 높이가 n인 삼각형에서 맨 위 꼭짓점부터 반시계 방향으로 달팽이 채우기를 진행한 후, 첫 행부터 마지막 행까지 모두 순서대로 합친 새로운 배열을 return 하도록 solution 함수를 완성해주세요. 제한사항 n은 1 이상 1,000 이하입니다. 입출력 예 nresult 4 [1,2,9,3,10,8,4,5,6,7] 5 [1,2,12,3,13,11,4,14,15,10,5,6,7,8,9] 6 [1,2,15,3,16,14,4,17,21,13,5,18,19,20,12,6,7,8,9,10,11] def solution(n): answer = [] floors = [i for i in range(1,n+1)] # 체크해야할 각층을 나타내.. 2020. 11. 4.
Collaborative Filtering 에서의 유사도 지표 제안 논문. CF 알고리즘에서 새로운 유사도 지표를 제안하여 기존 보다 나은 성능을 내도록 연구한 논문에 대한 간략한 정리. 이번 장에서는 2개의 논문에 대한 정리를 한다. 기존의 어떤 문제를 해결하고자 하는지, 제안하려는 유사도 지표가 주는 이점, 한계점 등에 대해 간략하게 정리한다. 1. A new similarity measure for collaborative filtering based recommender systems 2019, Achraf Gazdar, Lotfi Hidri. 요약: CF 알고리즘은 유사도 지표를 토대로 유사한 사용자 집단을 구성하고, 이를 토대로 추천이 이루어진다. 이 때, 유사도를 측정하는 부분에 있어서 지금껏 다양한 유사도를 제안해왔고, 이 논문은 심플하고 효율적인 유사도 지표를 .. 2020. 10. 29.
728x90
반응형