본문 바로가기
728x90
반응형

NLP23

비정형 데이터 - 전처리 본 장은 간단한 개념만 훑어 봅니다. 텍스트 분석을 하기 전에 분석하기 좋은 형태로 데이터를 정제시키는 작업을 전처리 작업 (preprocessing)이라고 합니다. 텍스트 전처리에는 크게 다음 4가지의 종류로 나뉩니다. 1. Tokenizing: 주어진 문서나 문장을 기본 단어 기준으로 나누는 작업이다. 일반적으로 영어는 띄어쓰기 경계로 나누기 좋은 반면에 한국어는 복합형태소로 기술되기 때문에 띄어쓰기 만으로는 완벽히 토크나이징을 하기 어렵다. 특히 전문용어, 신조어가 많이 포함된 문서에는 더욱 불리하다. WordNet이나 국립국어원 언어정보나눔터에서 "말뭉치(token, corpus)"를 다운받을 수 있다. 2. POS tagging: POS는 Part Of Speech의 약자로 주어진 단어열로부터 .. 2019. 12. 16.
비정형 데이터 - 소개 텍스트 마이닝 Task 1. 정보 검색(Information retrieval) - 검색 엔진, 데이터 베이스 2. 정보 추출(Extraction) 및 요약(Summarization) - 특정 주제 변화 확인(Topic Tracking) - 대표 문장 추출(뉴스, 이메일), 데이터 시각화(Visualization) 3. 문서 분류(Classification) 및 그룹핑(Grouping) - 주제 별 분류, 정의된 Category 없이 문서 그룹핑 => 지도학습 / 비지도학습 4. 오피니언 마이닝(Opinion mining) - 긍/부정 분석(Sentiments analysis), 주요 키워드 파악 5. 자연어 처리(Natural language processing) - 번역, 챗봇, 음성 인식 등 -> .. 2019. 12. 16.
구글 비트코인 뉴스 크롤링 구글 검색창에 'bitcoin'을 검색하여 나온 뉴스들에 대한 크롤링을 하였습니다. 1. 날짜별로 검색을 하게하고, 출력된 뉴스들의 링크를 가져옵니다. -> 신문사를 몇개 정해놓고 정한 신문사에 해당하는 뉴스 링크만 가져왔습니다. 2. 뉴스들의 링크를 가지고 기사 내용을 수집해옵니다. -> 신문사 홈페이지마다 html형식이 다르기 때문에 각각 형식에 맞게 크롤링 코드를 만들어 줍니다. 1. 뉴스 링크 가져오기 ( + 날짜, 제목, url ) -사용될 모듈들을 우선 임포트 해줍니다. from selenium import webdriver from selenium.webdriver.common.keys import Keys from bs4 import BeautifulSoup import time impor.. 2019. 11. 29.
구글 검색 뉴스 감성분석 구글에 'bitcoin'을 검색하여 나온 뉴스들을 수집하여 각 뉴스마다 감성점수를 부여하였습니다. 그리고 비트코인 시세와 관련된 데이터를 수집하여 이들을 분석해서 의미있는 결과를 만들어 봅니다. 문장에 대해 긍정/부정/중립으로 분류하기 위한 기준을 마련하기 위하여 VADER 모델을 사용하였습니다. VADER모델은 간략한 설명으로는 소셜 미디어 텍스트의 감성 분석을 위한 Parsimonious Rule-based Model이라고 명시하고 있으며, [1]을 참고하면 좋을 것 같습니다. 혹시라도 이 모델을 사용하기 위해 코드를 가져다 연구 등에 활용하신다면 [1]을 꼭 명시해달라고 말하고 있습니다. VADER sentiment lexicon은 소셜 미디어 텍스트에서 표현된 극성이거나 강렬한 감정에 예민하다고 .. 2019. 11. 29.
IMDB 영화 댓글 크롤링 코드 학교 팀플 과제를 하기 위해 사용할 데이터를 수집하였습니다. 그리 방대한 양은 아니지만, 아래의 코드를 통해 크로링하는데 걸리는 시간은 대충 반나절 정도 걸린 듯 합니다. 초보적인 방법으로 크롤링한거라서 단순합니다. 데이터는 미국 영화 정보 사이트인 imdb.com 에서 데이터를 크롤링하였습니다. 댓글이 상당히 믿을만하고, 길이도 꽤 길어서 텍스트마이닝 공부할 때 유용하게 쓸 수 있다고 생각합니다. 이 코드를 그대로 사용하실거라면 우선 chromedrever를 다운받으셔야하고, 압축을 풀고 파일이 있는 절대경로까지 설정을 해주셔야합니다. 1. 필요한 모듈 설치하기. 아래에는 필요한 모듈을 설치하는 코드입니다. selenium과 BeautifulSoup을 병행하여 그때그때 사용하였습니다. from sele.. 2019. 11. 28.
코사인 유사도를 활용한 유사 문서 검색 저번에 크롤링한 데이터를 그대로 사용하여 코사인 유사도를 구해보도록 하겠습니다. 우선 저번에 사용한 코드 그대로 사용하여 데이터를 수집해와서 전처리까지 동일하게 진행해주었습니다.(전처리에 기자이름을 제거하는 것을 추가하였습니다. 기자 이름때문에 유사성이 전체적으로 높게 측정되기 때문입니다.) import requests import re from bs4 import BeautifulSoup url="https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=" category=[100,101,102,103,104] #정치, 경제, 사회, 생활/문화 news_url_list=[] headline=[] for i in category: home = url+str.. 2019. 11. 22.
728x90
반응형