본문 바로가기
NLP

비정형 데이터 - 소개

by 볼록티 2019. 12. 16.
728x90
반응형

텍스트 마이닝 Task

 

1. 정보 검색(Information retrieval)

 - 검색 엔진, 데이터 베이스

 

2. 정보 추출(Extraction) 및 요약(Summarization)

 - 특정 주제 변화 확인(Topic Tracking)

 - 대표 문장 추출(뉴스, 이메일), 데이터 시각화(Visualization)

 

3. 문서 분류(Classification) 및 그룹핑(Grouping)

 - 주제 별 분류, 정의된 Category 없이 문서 그룹핑 => 지도학습 / 비지도학습

 

4. 오피니언 마이닝(Opinion mining)

 - 긍/부정 분석(Sentiments analysis), 주요 키워드 파악

 

5. 자연어 처리(Natural language processing)

 - 번역, 챗봇, 음성 인식 등

 

-> 2번, 3번, 4번을 다루도록 함.

 

 

 

 

왜 텍스트 마이닝이 필요한가?

 

세상의 80%는 비정형 데이터 형식이라는 점. 간단한 문서 검색은 충분하지가 않고, 이제는 무언가 새로운 지식의 발견이 요구된다.

 

 

 

앞으로 배울 부분들.

 

 

1. 전처리

 

2.주제별 분류, 감성분석

 

3. 정보 추출, 주제 확인

 

4. 데이터 수집

 

5. 문장 구조 분석 및 번역

 

 

 

 

 

서울과학기술대학교 이영훈 강의와 여럿 블로그를 참조함을 명시합니다.

728x90
반응형

'NLP' 카테고리의 다른 글

비정형 데이터 - TF-IDF  (0) 2019.12.16
비정형 데이터 - 전처리  (0) 2019.12.16
구글 비트코인 뉴스 크롤링  (4) 2019.11.29
구글 검색 뉴스 감성분석  (0) 2019.11.29
IMDB 영화 댓글 크롤링 코드  (2) 2019.11.28

댓글