본문 바로가기
728x90
반응형

분류 전체보기190

Graphical Model 이번 장에서는 graphical model 에 대해 알아본다. 자료들을 확률적으로 모델링하는 방법 중에 하나이다. 제대로 공부를 하려면 한학기 내내 공부를 해도 부족할 정도로 양이 많다. 여기서는 간략한 개념정도만 학습한다. 확률모델인만큼, 각각의 변수들을 일종의 노드로 생각을 하고, 변수와 변수 사이의 관계를 엣지로 표현한다. Undirected Graph: 서로 인과, 선후관계는 모르고 관계를 맺고 있고 방향이 없는 그래프. Factor Graph: 연결 사이에 어떤 요소가 존재하는 그래프. Bayesian Network: 방향성이 있는 것이 Directed이고 거기에 방향이 있지만 acyclic(화살표를 따라서 자기자신으로 돌아오지 않는) 형태의 그래프. 아래의 그림은 A가 B에 영향을 주는 경우... 2020. 10. 18.
Naive Bayes Classifier 나이브 베이즈는 확률기반 분류 보델 중에 하나이다. 그 중 단순한 축에 속한다. 알고리즘 이름에서 유추할 수 있듯이 Bayes' theorem 을 활용한다. Bayes' theorem 는 아래와 같다. 확률 변수 A와 B를 볼 수 있다. 그리고 P(A), P(B)를 각각 A에 대한 prior, B에 대한 prior 라고 한다. A,B에 대한 정보가 서로 없는 상태에서의 확률을 의미한다. 조건부확률 P(A|B) 는 B가 일어난다 가정했을 때, A가 일어날 확률이다. 그리고 분자에 P(B|A)는 A가 일어났다는 가정하에서 B가 일어날 확률이다. 위의 식은 아래와 같이 조건부확률로 쉽게 전개할 수 있다. 이러한 단순한 베이즈 이론을 어디에 쓸 수 있는가? 반대의 경우에 사용한다. P(A|B) 가 있으면 역으로.. 2020. 10. 18.
Ridge and Lasso Regression 저번시간에 기본적인 선형회귀식을 OLS방식으로 회귀식을 만드는 과정을 살펴보았다. 또 모델과 추정된 베타의 유의성을 통계적으로 검정해보았고, Robust regression으로써 loss function에서 Huber function을 사용한 regression의 방법도 살펴 보았다. 이번장에서 Ridge와 Lasso도 Robust regression와 마찬가지로 loss function을 변형하게 된다. 일반적인 OLS를 사용한 선형 회귀는 bias가 없는 estimator라고 한다(unbiased=불편추정량=편의가 없는 추정량). 모집단에 대한 통계량을 추정하는게 샘플들의 통계량이다. 추정하는 수식에 따라서 불편 또는 편의 추정량이 될 수 있다. 불편추정량이라함은 샘플이 모집단에서 랜덤에서 뽑힐 때마.. 2020. 10. 17.
regression supervised learning 중에서 target variable이 numerical variable일 때, 예측 기법 중 하나인 linear regression(선형회귀)에 대해 알아본다. 기본적인 선형회귀를 알아보고 이어서 단점을 보완한 기법들에 대해서도 알아본다. 우선 선형회귀는 말그대로 독립변수와 종속변수 간의 선형적인 관계를 가정한다. 그렇기 때문에 아래의 식처럼 $\beta$를 추정하여 선형결합으로 예측 값을 계산한다. 우항의 가장 오른쪽에 $\epsilon$은 오차를 나타낸다. 완벽히 선형회귀로 만들어진 직선에 모든 데이터가 일치할 수 없기 때문에 그 당연한 오차를 표현해 주는 것이다. 선형회귀의 가정은 4가지 정도가 있다. 첫번째 독립변수와 종속변수 간의 선형적인 관계를 가정한다. 두.. 2020. 10. 17.
프린터 (프로그래머스 level2) 문제 설명 일반적인 프린터는 인쇄 요청이 들어온 순서대로 인쇄합니다. 그렇기 때문에 중요한 문서가 나중에 인쇄될 수 있습니다. 이런 문제를 보완하기 위해 중요도가 높은 문서를 먼저 인쇄하는 프린터를 개발했습니다. 이 새롭게 개발한 프린터는 아래와 같은 방식으로 인쇄 작업을 수행합니다. 1. 인쇄 대기목록의 가장 앞에 있는 문서(J)를 대기목록에서 꺼냅니다. 2. 나머지 인쇄 대기목록에서 J보다 중요도가 높은 문서가 한 개라도 존재하면 J를 대기목록의 가장 마지막에 넣습니다. 3. 그렇지 않으면 J를 인쇄합니다. 예를 들어, 4개의 문서(A, B, C, D)가 순서대로 인쇄 대기목록에 있고 중요도가 2 1 3 2 라면 C D A B 순으로 인쇄하게 됩니다. 내가 인쇄를 요청한 문서가 몇 번째로 인쇄되는지 .. 2020. 10. 17.
Clustering 비지도 학습의 대표적인 클러스터링 기법에 대해 알아본다. 클러스터링은 input data들을 비슷하게 묶어 주는 것을 말하며 군집분석이라고도 한다. 아래의 그림에 샘플들이 색깔별로 나누어져 있는 것을 알 수 있다. 같은 그룹 속 샘플들은 특성이 비슷하다. 즉, 그룹간의 차이는 크게 그룹내의 차이는 작게 만드는 것이 군집을 잘 나누는 목적이라고 할 수 있다. 샘플 사이가 얼마나 가깝냐라고 하는 것은 distance measure를 활용한다. 그리고 그룹은 어떻게 나눌 것인가?에 대한 것은 clustering algorithm을 사용한다. clustering algorithm은 어떤 방식으로 그룹을 나눌 것인지에 대한 방법들이 존재한다. 이번 장에서 클러스터링에 대한 알고리즘은 K-means와 Hierarc.. 2020. 10. 17.
728x90
반응형