본문 바로가기
728x90
반응형

머신러닝20

regression supervised learning 중에서 target variable이 numerical variable일 때, 예측 기법 중 하나인 linear regression(선형회귀)에 대해 알아본다. 기본적인 선형회귀를 알아보고 이어서 단점을 보완한 기법들에 대해서도 알아본다. 우선 선형회귀는 말그대로 독립변수와 종속변수 간의 선형적인 관계를 가정한다. 그렇기 때문에 아래의 식처럼 $\beta$를 추정하여 선형결합으로 예측 값을 계산한다. 우항의 가장 오른쪽에 $\epsilon$은 오차를 나타낸다. 완벽히 선형회귀로 만들어진 직선에 모든 데이터가 일치할 수 없기 때문에 그 당연한 오차를 표현해 주는 것이다. 선형회귀의 가정은 4가지 정도가 있다. 첫번째 독립변수와 종속변수 간의 선형적인 관계를 가정한다. 두.. 2020. 10. 17.
Clustering 비지도 학습의 대표적인 클러스터링 기법에 대해 알아본다. 클러스터링은 input data들을 비슷하게 묶어 주는 것을 말하며 군집분석이라고도 한다. 아래의 그림에 샘플들이 색깔별로 나누어져 있는 것을 알 수 있다. 같은 그룹 속 샘플들은 특성이 비슷하다. 즉, 그룹간의 차이는 크게 그룹내의 차이는 작게 만드는 것이 군집을 잘 나누는 목적이라고 할 수 있다. 샘플 사이가 얼마나 가깝냐라고 하는 것은 distance measure를 활용한다. 그리고 그룹은 어떻게 나눌 것인가?에 대한 것은 clustering algorithm을 사용한다. clustering algorithm은 어떤 방식으로 그룹을 나눌 것인지에 대한 방법들이 존재한다. 이번 장에서 클러스터링에 대한 알고리즘은 K-means와 Hierarc.. 2020. 10. 17.
Nonparametric Method 이번 장에서는 nonparametric method 중 unsupervised method에 해당하는 density estimation 하는 방법과 nonparametric하게 regression 하는 방법을 알아본다. - 1. Unsupervised: Density Estimation Density estimation 이라는 것은 말그대로 분포를 추정하는 것이다. Parametric method는 기본적으로 특정 확률분포함수를 가정을 하고 관측치들을 기반으로 추정을 한다. 예를 들면 정규 분포의 평균과 분산을 알고 있으니 어떤 값에 대한 확률밀도 값을 얻을 수 있다. Nonparametric의 경우는 주어진 어떤 값들을 가지고 그 자체만으로 확률밀도를 추정하는 것을 말한다. 샘플들이 확률 분포 함수의 .. 2020. 10. 15.
회귀분석 with python 0. Linear Regression 수치를 예측하는 방법 중 하나로 통계학에서는 회귀분석으로 잘 알려져 있다. 학습이 가능하기 때문에 머신러닝으로도 또한 잘 알려져 있다. 단순 선형 회귀와 같은 경우에는 독립변수 하나를 가지고 학습을 하며 이후에 새로운 독립변수들에 대해서 종속변수를 예측하게 된다. 단순 선형 회귀식은 일차 함수처럼 나타나게 된다. $ \hat{y} = \beta_{1} x + \beta_{0} $ 위의 식을 보면 단순한 일차 방정식처럼 보인다는 것을 알 수 있다. 여기서 우리가 구하려는 것은 이미 알고 있는 $x_{i}$ 들과 $y_{i}$들을 토대로 $\beta_{1}$과 $\beta_{0}$를 구하는 것이다. 쉽게 말해 기울기와 y 절편을 구한다고 생각하면 된다. Linear Re.. 2020. 3. 21.
randomforest for regression 데이터 불러오기 ! 저자가 걸어둔 링크를 통해서 데이터를 바로 다운 받을 수 있다. https://drive.google.com/file/d/1pko9oRmCllAxipZoa3aoztGZfPAD2iwj/view?usp=sharing import pandas as pd features = pd.read_csv('temps.csv') #설명에 따르기 위해 필요한 컬럼만 가져온다. features = features[['year','month','day','week','temp_2','temp_1','average','actual','friend']] features[.. 2020. 3. 6.
엔트로피(Entropy) 엔트로피(Entropy)는 집합의 혼합 정도를 나타내는 다른 방법이다. 정보이론에서 출발했고 집합의 난잡도를 측정한다. 정리해보면 엔트로피는 집합에서 무작위로 선택된 항목이 얼마나 놀랄만한 것인지를 의미한다. 만일 전체 집합이 A였다면, A를 보고 전혀 놀라지 않을 것이며 결국 엔트로피는 0이 된다. 지니계수와 비슷하다. 의외성(surpirsal) $s = -log{p_{i}}$ 엔트로피 $e = -\sum_{i=0}^{n}p_{i}log{p_{i}}$ 크로스 엔트로피 $H(p,q) = -\sum_{i=0}^{n}p_{i}logq_{i}$ 참고: https://danbi-ncsoft.github.io/study/2018/12/06/entropy.html 2020. 1. 6.
728x90
반응형