728x90 반응형 머신러닝20 Momentum과 Adagrad를 쉽게 이해해보자! 이전에 gradient descent 방식의 계산량이 많아 시간이 많이 소요된다는 한계점을 해결하는 방법인 Stochastic Gradient descent 방식과 mini-batch gradient descent 방식에 대해 알아보았다. data-science-hi.tistory.com/164 Stochastic Gradient Descent 를 쉽게 이해해보자. 이전에 GD(Gradient Descent) 를 간단한 회귀분석 예제를 들어 GD로 학습하는 과정을 거쳐 parameter 를 추정하는 연습을 통해 GD 를 이해해 보았다. data-science-hi.tistory.com/163 gradient descent(경사하.. data-science-hi.tistory.com 기존의 SGD 방식에다.. 2020. 12. 16. Stochastic Gradient Descent 를 쉽게 이해해보자. 이전에 GD(Gradient Descent) 를 간단한 회귀분석 예제를 들어 GD로 학습하는 과정을 거쳐 parameter 를 추정하는 연습을 통해 GD 를 이해해 보았다. data-science-hi.tistory.com/163 gradient descent(경사하강법) 를 쉽게 이해해보자. 이번 장에서는 gradient descent 방법에 대해 직관적이고, 쉽게 이해해보고자 한다. 우선 gradient descent 라는 뜻을 생각해보자. 직역을 하면 경사하강법인데, 경사를 내려간다 라는 의미로 받아들이 data-science-hi.tistory.com 이번 장에서 알아볼 SGD(Stochastic Gradient Descent)는 GD 에 시간비용 단점을 보완할 확장판이다. GD 의 문제점. 이전.. 2020. 12. 16. gradient descent(경사하강법) 를 쉽게 이해해보자. 이번 장에서는 gradient descent 방법에 대해 직관적이고, 쉽게 이해해보고자 한다. 우선 gradient descent 라는 뜻을 생각해보자. 직역을 하면 경사하강법인데, 경사를 내려간다 라는 의미로 받아들이면 된다. 예를 들어 우리가 산 어딘가에 낙하했다면, 우리가 집을 찾아가기 위해 산을 내려가는 과정을 생각하면 된다. 수학적인 관점에서 보면은 gradient descent 는 최소가 되는 지점을 찾는다라고 생각해볼 수 있다. gradient 라는 정보를 가지고 어떤 시도를 해보면서 최소가 되는 지점을 찾아가는 과정이다. gradient 는 y=ax+b 라는 1차식에서 a 에 해당하는 기울기라고 보면 된다. 우리는 이 a 라는 gradient 정보를 가지고 최소값을 찾는 것이다. 어떤 최소.. 2020. 12. 14. Ensemble Methods 이번장에서는 앙상블 기법에 대해 알아본다. 앙상블로 학습한다는 것은 일종의 meta learning algorithm이다. 즉 데이터가 주어지면 바로 모델링을 하는 것이 아니라, 여러 모델들을 결합해서 보다 나은 성능을 얻는 최종적인 모델을 만들기 위한 방법론에 해당한다. 여러개의 모델을 합쳐서 최종적으로 예측을 하기 때문에 중점적으로 고려해야하는 것은 어떻게 서로 다른 모델들을 주어진 데이터를 이용해서 만들어낼 것인가와 각 모델의 결괏값을 병합할 것이냐가 있다. 앙상블 모델을 설계하기 위한 방법에는 여러 방법이 존재한다. 1) bayesian voting parametric한 방법으로 데이터를 분석한다면 데이터에 대한 분포를 가정한다. 예를 들어 선형회귀 같은 경우는 설명변수와 종속변수사이의 관계가 선.. 2020. 11. 29. Expectation Maximization 이번 장에서는 EM 알고리즘에 대해서 알아본다. objective function 이 주어졌을 때, 최적화 문제를 푸는 방법은 다양하다. EM 알고리즘의 경우는 maximum likelyhood 나 posteriori(MAP) 설정되어 있는 목적함수의 parameter를 찾는 방법이다. 매 step마다 해를 변경해가면서 최적의 parameter를 찾아간다. EM 알고리즘의 경우는 서로 다른 step을 번갈아가면서 해를 찾아간다. 그 step은 E와 M으로 나뉜다. E는 Expectation의 E 이고, M은 Maximization의 M 이다. 기댓값을 찾는 과정과 최댓값을 찾는 과정을 반복하는 것이다. E step 은 parameter를 고정시켜 놓고 likelyhood값의 기댓값을 구한다. M step.. 2020. 11. 24. Dimensionality Reduction 이번 장에서는 차원을 축소하는 방법에 대해서 알아본다. 차원의 저주(curse of dimensionality)는 분석하는 데이터가 차원(feature)이 커지면 커질수록 row dimension에서 일어나지 않은, 기대하지 않은 현상들도 일컫게 되어 학습모델을 잘 만드는데 있어서 안좋은 요소로써 작용한다. 샘플을 늘리지 않는 상황에서 독립변수만 늘리게 되면 sample space가 굉장히 커지게 된다. 아래의 그림처럼 1차원에서는 5개의 샘플로 채웠던 것이 차원(feature, axis)이 증가할수록 sample space는 커지게 되어 데이터를 설명하기위해 필요한 데이터도 당연 늘어나게 되고, 이러한 차원이 계속해서 많아지게 되면 데이터의 패턴을 파악하기가 힘들어진다. 즉 모델을 만들기 까다로워진다... 2020. 11. 16. 이전 1 2 3 4 다음 728x90 반응형