728x90 반응형 분류 전체보기190 엔트로피(Entropy) 엔트로피(Entropy)는 집합의 혼합 정도를 나타내는 다른 방법이다. 정보이론에서 출발했고 집합의 난잡도를 측정한다. 정리해보면 엔트로피는 집합에서 무작위로 선택된 항목이 얼마나 놀랄만한 것인지를 의미한다. 만일 전체 집합이 A였다면, A를 보고 전혀 놀라지 않을 것이며 결국 엔트로피는 0이 된다. 지니계수와 비슷하다. 의외성(surpirsal) $s = -log{p_{i}}$ 엔트로피 $e = -\sum_{i=0}^{n}p_{i}log{p_{i}}$ 크로스 엔트로피 $H(p,q) = -\sum_{i=0}^{n}p_{i}logq_{i}$ 참고: https://danbi-ncsoft.github.io/study/2018/12/06/entropy.html 2020. 1. 6. 지니불순도(Gini impurity) 지니불순도라는 것은 데이터 분석에서 흔히 의사결정나무에서 사용되는 클래스개수에 따른 케이스들의 불순한 정도를 나타내는 척도라고 생각하면 될 것 같다. 지니불순도가 필요한 이유는 의사결정을 하는데 있어서 최적의 분류를 위한 결정을 계속해서 맞이하는데 이 결정에 사용되기 때문이다. 이 변수로 인해서 분류를 거쳤을 때 지니불순도가 얼마나 되는가? 를 생각할 수 있게된다. 또다른 불순도지표로는 엔트로피가 있다. 위의 그림 하나로 이해가 완전히 쉬워진다. 지니 불순도는 클래스안에 분류가 완벽하게 잘 되어 있으면 아래의 공식에 따라 0 이 된다. 즉 불순물없이 깨끗하게 분류가 되어 있다는 것이다. 하지만 섞이게 되면 0보다 큰 값을 가지게 되고, 최댓값은 0.5 이다. 이를 구하는 공식은 $1 - \sum_{j=1.. 2020. 1. 6. 스팸 필터링 스팸 필터링 초창기에는 규칙 기반 분류기들이 시도되었다. 여기서는 메시지가 스팸이었는지 아니었는지를 가리키는 규칙들을 사람이 설계했다. 일반적으로 규칙에는 과도한 대문자 남용, 제약 제품과 관련된 단어들, 특별히 번쩍이는 HTML 색깔과 같은 것들을 포함하고 있다. 규칙 기반 분류기의 문제는 명확하다. 스패머가 규칙들을 배우고 이를 피하기만 하면 모두 걸리지 않게 된다. 또 다른 문제는 게시판 장소나 작성한 사람에 따라 스팸 판단 기준이 달라진다는 것이다. 이 장에서는 처음이나 메시지를 받았을 때 사용자가 알려준 정보를 학습하는 프로그램에 대해 살펴본다. 이작업을 통해 개인, 그룹, 사이트들이 무엇을 스팸이라고하고, 무엇을 스팸이 아니라고 하는지를 구해 데이터 셋이나 한 데이터가 스팸인지를 구분한다. 항.. 2020. 1. 5. 마음가면 마음가면. 저자: 브렌브라운. 김미경강사님의 추천으로 읽게 되었다. 불편한 마음들은 역시 당당하지 못하고 혹은 해낼 수 없다는 불안한 마음에서 오는 무력함이라고 생각한다. 인간은 나약하고 약하고, 특히 자연 앞에서 하나의 작은 생명체일 뿐이다. 그런 생명체들끼리 살아가는데 자기 자신을 믿으면 얼마나 믿겠으며, 못 믿으면 또 얼마나 못 믿겠는가. 다른 사람을 믿으면 얼마나 믿고, 다른사람을 안믿으면 또 얼마나 안믿겠는가. 중요하지 않다. 중요한건 나만 생각하고 나만 바라보고 내가 숨쉬는 공기, 내가 내뱉는 말, 내가 보는 것에 집중하자. 상대적인 것은 끝까지 상대적이다. 절대적인 것은 어지간하면 시시하기 때문에 논쟁거리에 잘 오르지도 않지만 어찌됐건, 상대적이라는 것은 비교대상이 있다는 것이다. 비교대상으.. 2020. 1. 4. 선호도 최적화 앞서 최적화로 해결할 수 있는 문제에 대한 예를 보았다. 하지만 전혀 관련이 없어보여도 동일한 방법을 사용할 수 있는 문제들이 많이 있다. 최적화 요건으로 문제를 풀기위해 필요한 조건 1. 문제가 정의된 비용 함수를 가지는지 -> 비용함수를 구할 수 있는지 2. 유사한 해답이 유사 결과를 내는지 -> 입력값에 따라 합리적인 결과가 도출되는지 이런 속성을 가진 모든 문제를 최적화로 다 풀 수는 없지만 전혀 생각치 못한 흥미로운 결과를 최적화를 통해서 얻어낼 수 있다! 이번에는 최적화 결과를 내는 다른 문제를 살펴본다. 제한된 자원을 선호를 표현한 사람들에게 분배하여 가능한 모두 행복하게 하는 방법을 찾는 문제를 생각해보자. 학생 기숙사 최적화 학생들을 그들의 1지망, 2지망 선택을 반영해서 기숙사에 배치하.. 2020. 1. 4. 시뮬레이티드 어닐링/유전자 알고리즘 저번 장에서 최적화 중 local minimum에 빠지는 것을 방지하기 위한 방법으로 두가지를 제시하였고, 본 장에서 예시를 통해 이어서 설명해보록 한다. 1. 시뮬레이티드 어닐링(Simulated Annealing): 물리학에서 영감을 받은 최적화 기법이다.. 어닐링이란 합금을 가열한 후 천천히 냉각하는 과정을 말한다. 원자는 주변을 뛰어다니다가 점차 낮은 에너지 준위로 정착하기 때문에, 원자들은 가장 낮은 에너지 배치를 찾을 수 있다. 각설하고, 시뮬레이티드 어닐링은 계속해서 좋은 방향으로 움직인다. 처음에는 좋지 않은 해답으로 시작할 순 있지만 점차 끝에 이르러서는 더 좋은 해답만을 선택하게 된다.. 매 반복마다 해답 내 숫자들 중 하나를 무작위로 선택하고 특정한 방향으로 변경한다. 큰 비용을 가진.. 2020. 1. 3. 이전 1 ··· 21 22 23 24 25 26 27 ··· 32 다음 728x90 반응형