728x90 반응형 Programming_Collective Intelligence/6.문서필터링1 스팸 필터링 스팸 필터링 초창기에는 규칙 기반 분류기들이 시도되었다. 여기서는 메시지가 스팸이었는지 아니었는지를 가리키는 규칙들을 사람이 설계했다. 일반적으로 규칙에는 과도한 대문자 남용, 제약 제품과 관련된 단어들, 특별히 번쩍이는 HTML 색깔과 같은 것들을 포함하고 있다. 규칙 기반 분류기의 문제는 명확하다. 스패머가 규칙들을 배우고 이를 피하기만 하면 모두 걸리지 않게 된다. 또 다른 문제는 게시판 장소나 작성한 사람에 따라 스팸 판단 기준이 달라진다는 것이다. 이 장에서는 처음이나 메시지를 받았을 때 사용자가 알려준 정보를 학습하는 프로그램에 대해 살펴본다. 이작업을 통해 개인, 그룹, 사이트들이 무엇을 스팸이라고하고, 무엇을 스팸이 아니라고 하는지를 구해 데이터 셋이나 한 데이터가 스팸인지를 구분한다. 항.. 2020. 1. 5. 이전 1 다음 728x90 반응형