본문 바로가기
728x90
반응형

NLP23

비정형 데이터 - LDA LDA. 잠재 디리클레 할당. 주어진 문서에 대해 각 문서에 어떤 주제들이 존재하는지에 대한 확률 모형. 토픽별 단어의 분포와 문서별 토픽의 분포를 모두 추정. 검색 엔진, 고객 민원 시스템 처럼 주제 파악이 필요한 곳에서 사용된다. LDA는 토픽모델링의 대표적인 알고리즘이다. LDA는, 문서들은 토픽들의 혼합으로 구성되어져 있으며, 토픽들은 확률 분포에 기반하여 단어들을 생성한다고 가정한다. 데이터가 주어지면, LDA는 문서가 생성된던 과정을 역추적한다. LDA수행시 토픽이 몇 개가 존재할지 가정하는 것은 사용자가 해주어야한다. 즉, 토픽 개수를 지정해주는 것이다. 이렇게 하이퍼 파라미터 값을 선택해주면 LDA는 각 문서의 토픽 분포와 각 토픽 내의 단어 분포를 추정한다. 아래의 그림은 논문인가, 게재.. 2019. 12. 16.
비정형 데이터 - GloVe 미국 스탠포드 대학에서 개발한 2014 GloVe 임베딩. -요약 1. 주어진 Corpus와 Window size를 가지고, co-occurrence matrix X를 만든다. 2. Word2Vec과 유사한 방법으로 학습 대상이 되는 단어들을 Window size안에서 고른다. 3. 고른 단어와 matrix X를 기반으로 Objective Function을 사용해서 학습시킨다. 잠깐 단어 표현 ( Word Representation) 분류표를 한번 죽 보자. 그리고 GloVe의 탄생 배경을 적당히 살펴본다. full document같은 경우는 단어-문서간 동시출현을 기반으로 matrix X를 구축한다. 일반적인 주제분류에 적합하고 뭐 LSA가 있다. window기반 같은 경우 단어-단어간의 동시 출현을 .. 2019. 12. 16.
비정형 데이터 - Word2Vec 이번장에서는 단어 임베딩 기법 word2vec을 알아본다. Word2Vec 텍스트를 딥러닝에 인풋으로 넣을 수 없다. 하지만 숫자는 인풋으로 넣을 수 있다. 텍스트를 숫자로 만들어라.잘. 임베딩. 원핫인코딩같은게 자주 사용되는데, 이런거는 유사도가 없고 수치는 의미가 없다. 그래서 인코딩 대신에 임베딩을하게 된다. 임베딩을 하게 되면 차원도 저차원이고, 유사도를 가질 수 있게 된다. 그 임베딩을 하는 첫 단추가 word2vec 방법이다. word2vec은 중심단어와 주변단어 벡터의 내적이 코사인 유사도가 되도록 단어벡터를 벡터공간에 임베딩한다고 한마디로 요약을 합니다. 이 말은 내 주변에 단어들이 학습을 거치면 이제 텍스트가 아닌 벡터 수치로 여전히 가까워 보이게 남기는 것이라고 할 수 있을 것 같다. .. 2019. 12. 16.
비정형 데이터 - Classifier_Basic 이번장에서는 바이너리 분류 알고리즘인 로지스틱 회귀 모형과 뉴럴 네트워크와의 관계에 대해 알아본다. (ratsgo' blog(_ _) 1. Logistic Regression: class가 0과 1인 즉 바이너리한 라벨을 갖는 데이터를 통해 모형을 만들게 된다. 기존의 회귀모델에서 범주형 카테고리를 예측하는 것에 대한 한계점을 해결하기 위해 등장하였다. 수치형 자료만을 다루는 회귀분석 모델의 경우 범주가 수치일지라도 범주사이에 해당하는 값들이 아무런 의미를 지니지 않기 때문이라고도 말할 수 있겠다. 우선 기존의 회귀모델과의 차이점을 그래프를 통해 알아본다. 아래의 그래프는 종속변수에 범주 1과0이 각각 hot, cold로 주어지고, 입력벡터 $x$가 주어졌을 때 일반 회귀 모델로 그린 것이다. 아래의 그.. 2019. 12. 16.
비정형 데이터 - LSA / pLSA LSA LSA: Latent Sementic Analysis의 약자로 잠재 의미 분석이라는 뜻이다. 아래의 그림처럼 $X$라는 단어 문서 행렬을 SVD(특잇값분해)를 통해서 3개의 매트릭스 곱으로 나타내고, 차원수도 줄이게 되고 이러한 과정 중에 잠재된 의미를 찾는다는 것이다. SVD라는 것이 고급 선형대수학에 포함되어 있는 파트인데, 완벽하게 이해하기에는 기초 선형대수, 선형독립, 직교 등등 선행학습이 필요하다. 그러므로 어떤식의 알고리즘인지 완벽하진 않더라도 짚고 넘어가보도록 한다. SVD는 eigen value decomposition(고윳값분해) 처럼 행렬을 대각화하는 한 방법이다. 정방행렬만을 다뤘던 고윳값 분해와는 달리 이 SVD 특잇값 분해는 모든 $m$ x $n$ 행렬에 대해 적용이 가능하.. 2019. 12. 16.
비정형 데이터 - TF-IDF Bag-Of-Words (BOW) : 비정형 데이터를 정형화 하는 방법으로 쓰이는 전통적인 방법이라고 할 수 있다. 각 문서를 사전의 크기 만큼 벡터로 표현한다고 할 수 있다. 우선 바이너리 값으로 있고 없고를 기준으로 한 예시를 보겠다. 단순 바이너라 값으로 측정된 BOW 행렬은 문서의 특징을 제대로 구별하기 힘들다. 그리하여 단순한 바이너리 값이 아닌 가중치를 주게 되는데, 가장 자주 쓰이는 방법인 TF-IDF 가중치이다. 다음의 행렬속 값들이 변해가는 모습을 차례대로 보며 변화를 살펴본다. 이로써 TF-IDF 가중치로 값을 가지게 된 행렬이 해당 문서의 성격을 상대적으로 잘 나타낼 수 있다. 왜냐하면 TF-IDF가중치의 특징인 "유독 특정 단어가 특정 문서에 많이 나오더라"를 가중치에 녹여냈기 때문.. 2019. 12. 16.
728x90
반응형