본문 바로가기
728x90
반응형

머신러닝20

지니불순도(Gini impurity) 지니불순도라는 것은 데이터 분석에서 흔히 의사결정나무에서 사용되는 클래스개수에 따른 케이스들의 불순한 정도를 나타내는 척도라고 생각하면 될 것 같다. 지니불순도가 필요한 이유는 의사결정을 하는데 있어서 최적의 분류를 위한 결정을 계속해서 맞이하는데 이 결정에 사용되기 때문이다. 이 변수로 인해서 분류를 거쳤을 때 지니불순도가 얼마나 되는가? 를 생각할 수 있게된다. 또다른 불순도지표로는 엔트로피가 있다. 위의 그림 하나로 이해가 완전히 쉬워진다. 지니 불순도는 클래스안에 분류가 완벽하게 잘 되어 있으면 아래의 공식에 따라 0 이 된다. 즉 불순물없이 깨끗하게 분류가 되어 있다는 것이다. 하지만 섞이게 되면 0보다 큰 값을 가지게 되고, 최댓값은 0.5 이다. 이를 구하는 공식은 $1 - \sum_{j=1.. 2020. 1. 6.
군집분석 계층적 군집화 계층적 방법 개체간 거리를 계산한 후 비슷한 개체를 군집화함 병합: n개의 군집들을 가지고 시작해서 최종적으로 하나의 군집이 남을 때까지 순차적으로 유사한 군집들을 병합한다. 계층적 방법은 적은 수의 데이터를 다루기에 설명력이 좋아 유리하고, 또 군집 개수를 먼저 지정해줄 필요가 없지만 계산량이 너무나 많기 때문에 현업에서는 k-means 방법을 많이 사용한다고 한다. 계층적 군집분석은 단일연결법, 완전연결법, 평균연결법 등이 있지만 단일연결법(최단거리)에 대해서만 간단하게만 보고 넘어가고, 비계층적 군집분석의 k-means 방법에 대해 알아본다. 유투브 이상철 교수님의 영상에 있는 예시를 토대로 하였다. 아래의 표는 일단 개체 간의 거리를 미리 구해놓은 행렬이라고 보면 된다. 우선 계층적.. 2019. 12. 31.
728x90
반응형