본문 바로가기
728x90
반응형

머신러닝20

Support Vector Machine(2) 이번 장에서는 SVM 관련해서 저번에 보았던 Classification 말고 이 후에 개발된 방법에 대해 알아본다. 우선 SVC에서 약간 변형된 버전을 설명해본다. $\nu$-SVM 은 기존 컨셉과 동일하다. 역시 decision boundary를 찾기 위한 목적함수가 설정이 되어있다. 기존의 dual form으로 나타낸 목적함수는 아래와 같다. $\nu$_SVM 같은 경우는 기존의 form에서 $C$ 부분이 사라지고, 새로운 term인 $\nu \rho$가 추가된 것을 볼 수 있다. 먼저 $n$이라는 것은 데이터 전체 개수이기 때문에 우리가 조절하는 parameter는 아니다. 대신에 $\nu$ (nu라고 읽는다. 누.) 라는 것은 parameter로써 우리가 조절할 수 있다. 그리고 $\rho$ 의 .. 2020. 11. 6.
Nearest Neighbor Method NN과 같은 경우는 데이터가 풍부하고 양질이라고 하면 충분히 다양한 환경에서 좋은 성능을 내고 있다. 알고리즘 자체가 쉽고 직관적이라서 좋고, 또 다양한 방법으로 연구도 진행중인 알고리즘이다. 오늘 살펴볼 nearest neighbor 는 회귀, 로지스틱회귀, 나이브베이즈 등과 같은 이론적인 배경이 있어야 하는데, NN의 경우에는 직관적이고 복잡하지 않아서 쉽게 이해할 수 있다. NN은 classification 이든 regression이든 둘 다 사용이 가능하다. 핵심은 새로운 관측치가 왔을 때 관측치의 output은 train 샘플 중 가장 가까운 샘플을 찾고 그 샘플의 output을 가지고 예측값을 생성한다. NN 방식에는 여러가지 있는데, 먼저 kNN 부터 살펴보자. kNN에서 k는 사용자가 직접.. 2020. 10. 18.
Support Vector Machine(1) 이번장에서는 Support vector machine에서 classification을 다룬 방법에 대해 알아본다. 로지스틱 회귀나 나이브 베이즈는 확률론적 접근으로 class를 할당했고, 의사결정나무는 rule 기반으로 class를 할당했다. SVM은 decision boundary를 찾아서 class간 경계를 만드는 방법이다. 기본적인 가정은 최적의 decision boundary를 찾는 것이다. 아래에서는 이진 클래스에 대해 분리를 한다. 이 클래스를 잘 구분지어줄 경계를 찾는 것이 목표이다. 데이터들이 주어졌을 때, 그을 수 있는 선은 무수히 많다. 아래의 H3 처럼 좋은 경계선을 찾아야 한다. H2 처럼 다 나눌수는 있지만 H2와 H3 중 어떤게 더 좋은 건지도 구분해야 한다. SVM에서는 cla.. 2020. 10. 18.
Graphical Model 이번 장에서는 graphical model 에 대해 알아본다. 자료들을 확률적으로 모델링하는 방법 중에 하나이다. 제대로 공부를 하려면 한학기 내내 공부를 해도 부족할 정도로 양이 많다. 여기서는 간략한 개념정도만 학습한다. 확률모델인만큼, 각각의 변수들을 일종의 노드로 생각을 하고, 변수와 변수 사이의 관계를 엣지로 표현한다. Undirected Graph: 서로 인과, 선후관계는 모르고 관계를 맺고 있고 방향이 없는 그래프. Factor Graph: 연결 사이에 어떤 요소가 존재하는 그래프. Bayesian Network: 방향성이 있는 것이 Directed이고 거기에 방향이 있지만 acyclic(화살표를 따라서 자기자신으로 돌아오지 않는) 형태의 그래프. 아래의 그림은 A가 B에 영향을 주는 경우... 2020. 10. 18.
Naive Bayes Classifier 나이브 베이즈는 확률기반 분류 보델 중에 하나이다. 그 중 단순한 축에 속한다. 알고리즘 이름에서 유추할 수 있듯이 Bayes' theorem 을 활용한다. Bayes' theorem 는 아래와 같다. 확률 변수 A와 B를 볼 수 있다. 그리고 P(A), P(B)를 각각 A에 대한 prior, B에 대한 prior 라고 한다. A,B에 대한 정보가 서로 없는 상태에서의 확률을 의미한다. 조건부확률 P(A|B) 는 B가 일어난다 가정했을 때, A가 일어날 확률이다. 그리고 분자에 P(B|A)는 A가 일어났다는 가정하에서 B가 일어날 확률이다. 위의 식은 아래와 같이 조건부확률로 쉽게 전개할 수 있다. 이러한 단순한 베이즈 이론을 어디에 쓸 수 있는가? 반대의 경우에 사용한다. P(A|B) 가 있으면 역으로.. 2020. 10. 18.
Ridge and Lasso Regression 저번시간에 기본적인 선형회귀식을 OLS방식으로 회귀식을 만드는 과정을 살펴보았다. 또 모델과 추정된 베타의 유의성을 통계적으로 검정해보았고, Robust regression으로써 loss function에서 Huber function을 사용한 regression의 방법도 살펴 보았다. 이번장에서 Ridge와 Lasso도 Robust regression와 마찬가지로 loss function을 변형하게 된다. 일반적인 OLS를 사용한 선형 회귀는 bias가 없는 estimator라고 한다(unbiased=불편추정량=편의가 없는 추정량). 모집단에 대한 통계량을 추정하는게 샘플들의 통계량이다. 추정하는 수식에 따라서 불편 또는 편의 추정량이 될 수 있다. 불편추정량이라함은 샘플이 모집단에서 랜덤에서 뽑힐 때마.. 2020. 10. 17.
728x90
반응형