본문 바로가기
Programming_Collective Intelligence/6.문서필터링

스팸 필터링

by 볼록티 2020. 1. 5.
728x90
반응형

 스팸 필터링 초창기에는 규칙 기반 분류기들이 시도되었다. 여기서는 메시지가 스팸이었는지 아니었는지를 가리키는 규칙들을 사람이 설계했다. 일반적으로 규칙에는 과도한 대문자 남용, 제약 제품과 관련된 단어들, 특별히 번쩍이는 HTML 색깔과 같은 것들을 포함하고 있다. 규칙 기반 분류기의 문제는 명확하다. 스패머가 규칙들을 배우고 이를 피하기만 하면 모두 걸리지 않게 된다. 또 다른 문제는 게시판 장소나 작성한 사람에 따라 스팸 판단 기준이 달라진다는 것이다.

 이 장에서는 처음이나 메시지를 받았을 때 사용자가 알려준 정보를 학습하는 프로그램에 대해 살펴본다. 이작업을 통해 개인, 그룹, 사이트들이 무엇을 스팸이라고하고, 무엇을 스팸이 아니라고 하는지를 구해 데이터 셋이나 한 데이터가 스팸인지를 구분한다.

 

항목 분류를 위해서는 특징(feature)이 필요하다. 문서에서는 문서 내 단어가 된다.

 

아래의 함수는 텍스트를 알파벳이 아닌 문자로 나눠 텍스트를 단어로 분리한다. 실제 단어들만 남고, 모두 소문자로 변환된다. 특성은 너무 흔한 단어가 모든 문서에 출현하는건 별로 안좋다. 

 

 

이 부분은 블로그 텍스트 마이닝에서 뉴스기사 분류에서 다룬 내용과 흡사하여 넘어간..다.

 

728x90
반응형

댓글