본문 바로가기

728x90

분류 전체보기190

주피터 노트북에서 py파일 불러오기 더도 말고 덜도 말고 그저 간편하게 내가 작성한 파이썬 코드를 현재 디렉토리에 저장하고, 또 현재 디렉토리에 위치한 py파일을 불러 와 사용하는 방법을 적어본다. 우선 코드부터 보는데, 코드는 아래처럼 그냥 매개변수가 없는 함수를 하나 만들고, 그 안에는 딕셔너리 변수를 하나 리턴하는 것이다. 중요한건 %%writefile rating.py 인데 %%라는 매직command를 사용해서 청크안에 같이 작성된 코드를 가지고 새롭게 py파일을 현재 디렉토리에 생성해주는 것이다. %%writefile rating.py def rating(): critics={"Lisa Rose":{'Lady in the Water':2.5, 'Snakes on a Plane':3.5, 'Just My Luck':3.0, 'Sup.. 2019. 12. 26.

비정형 데이터 - Doc2Vec 앞에서 Word2Vec에 대해서 알아 보았다. 이 Word2Vec이 단어에 대한 임베딩이라고 한다면 이번에는 문서에 대한 임베딩하는 법을 알아봅니다. Word2Vec의 확장이라고 할 수 있다. 크게 달라진건 없다. 다만 아래의 그림에서 빨간 빡스에서 보여지는 것처럼 Document id와 word가 같은 임베딩 공간에 있게 하기위해서 가상의 단어, 즉 "Doc#5"를 만들어 주고, Word2Vec을 학습하는 것이 되겠다. 문장 혹은 문서에 대해서도 continuous representations로 학습하는 unsupervised 방법이다. - Distributed memory model of paragraph vector (PV-DM) - Distributed bag of words version of .. 2019. 12. 19.

비정형 데이터 - LDA LDA. 잠재 디리클레 할당. 주어진 문서에 대해 각 문서에 어떤 주제들이 존재하는지에 대한 확률 모형. 토픽별 단어의 분포와 문서별 토픽의 분포를 모두 추정. 검색 엔진, 고객 민원 시스템 처럼 주제 파악이 필요한 곳에서 사용된다. LDA는 토픽모델링의 대표적인 알고리즘이다. LDA는, 문서들은 토픽들의 혼합으로 구성되어져 있으며, 토픽들은 확률 분포에 기반하여 단어들을 생성한다고 가정한다. 데이터가 주어지면, LDA는 문서가 생성된던 과정을 역추적한다. LDA수행시 토픽이 몇 개가 존재할지 가정하는 것은 사용자가 해주어야한다. 즉, 토픽 개수를 지정해주는 것이다. 이렇게 하이퍼 파라미터 값을 선택해주면 LDA는 각 문서의 토픽 분포와 각 토픽 내의 단어 분포를 추정한다. 아래의 그림은 논문인가, 게재.. 2019. 12. 16.

비정형 데이터 - GloVe 미국 스탠포드 대학에서 개발한 2014 GloVe 임베딩. -요약 1. 주어진 Corpus와 Window size를 가지고, co-occurrence matrix X를 만든다. 2. Word2Vec과 유사한 방법으로 학습 대상이 되는 단어들을 Window size안에서 고른다. 3. 고른 단어와 matrix X를 기반으로 Objective Function을 사용해서 학습시킨다. 잠깐 단어 표현 ( Word Representation) 분류표를 한번 죽 보자. 그리고 GloVe의 탄생 배경을 적당히 살펴본다. full document같은 경우는 단어-문서간 동시출현을 기반으로 matrix X를 구축한다. 일반적인 주제분류에 적합하고 뭐 LSA가 있다. window기반 같은 경우 단어-단어간의 동시 출현을 .. 2019. 12. 16.

비정형 데이터 - Word2Vec 이번장에서는 단어 임베딩 기법 word2vec을 알아본다. Word2Vec 텍스트를 딥러닝에 인풋으로 넣을 수 없다. 하지만 숫자는 인풋으로 넣을 수 있다. 텍스트를 숫자로 만들어라.잘. 임베딩. 원핫인코딩같은게 자주 사용되는데, 이런거는 유사도가 없고 수치는 의미가 없다. 그래서 인코딩 대신에 임베딩을하게 된다. 임베딩을 하게 되면 차원도 저차원이고, 유사도를 가질 수 있게 된다. 그 임베딩을 하는 첫 단추가 word2vec 방법이다. word2vec은 중심단어와 주변단어 벡터의 내적이 코사인 유사도가 되도록 단어벡터를 벡터공간에 임베딩한다고 한마디로 요약을 합니다. 이 말은 내 주변에 단어들이 학습을 거치면 이제 텍스트가 아닌 벡터 수치로 여전히 가까워 보이게 남기는 것이라고 할 수 있을 것 같다. .. 2019. 12. 16.

비정형 데이터 - Classifier_Basic 이번장에서는 바이너리 분류 알고리즘인 로지스틱 회귀 모형과 뉴럴 네트워크와의 관계에 대해 알아본다. (ratsgo' blog(_ _) 1. Logistic Regression: class가 0과 1인 즉 바이너리한 라벨을 갖는 데이터를 통해 모형을 만들게 된다. 기존의 회귀모델에서 범주형 카테고리를 예측하는 것에 대한 한계점을 해결하기 위해 등장하였다. 수치형 자료만을 다루는 회귀분석 모델의 경우 범주가 수치일지라도 범주사이에 해당하는 값들이 아무런 의미를 지니지 않기 때문이라고도 말할 수 있겠다. 우선 기존의 회귀모델과의 차이점을 그래프를 통해 알아본다. 아래의 그래프는 종속변수에 범주 1과0이 각각 hot, cold로 주어지고, 입력벡터 $x$가 주어졌을 때 일반 회귀 모델로 그린 것이다. 아래의 그.. 2019. 12. 16.

이전 1 ··· 24 25 26 27 28 29 30 ··· 32 다음

728x90

티스토리툴바