본문 바로가기
728x90
반응형

전체 글190

데이터 파일 파티셔닝 -이번장에서 배울 것 0.데이터 파일을 파티셔닝함으로써 쿼리 성능을 어떻게 향상시키는지 -파티셔닝은 두개의 구문으로 포함된다. -Storage: 데이터를 올바른 파티션위치에 놓는 것. -Retrieval: 파티션으로부터 쿼리를 통해 분석할 데이터를 얻는 것. 1.Impala와 Hive로 파티션된 테이블들을 어떻게 생성하고 조작하는지 -하둡은 파티셔닝을 할 수 있다. -Hive와 Impala로 지원한다. --hive-import를 사용할 때, --hive-partition-key 와 --hive-partition-value를 사용하여 sqoop을 통해 파티션할 수 있다. -Spark, MapReduce, Flume 들이 파티션된 데이터를 저장하기위해 사용된다. -Impala/Hive의 파티셔닝 작업 예. .. 2019. 12. 15.
Impala와 Hive로 모델링하고 관리하기 -이번장에서 배울 것 0.Impala와 Hive가 Metastore를 사용하는 방법 -Hive와 Impala는 데이터 포맷과 경로를 결정하기 위해 Metastore를 사용합니다. RDBMS에서 데이터의 테이블 구조와 경로를 얻고 쿼리를 통해 데이터를 HDFS로 옮겨줍니다. 메타데이터란 각 데이터의 중요한 특징을 설명하는 것입니다. (columns) 1.Impala SQL과 HiveQL DDL 로 테이블을 만드는 방법 -데이터베이스와 테이블을 생성하고 관리하기 위해서 HiveQL또는 DDL(Data Definition Language) 또는 Impala SQL을 사용합니다. 표준 SQL DDL과 매우 유사합니다. 작은 차이점이라고 한다면 Hive와 Impala DDL 사이에 있긴 하다. -데이터베이스 생성.. 2019. 12. 15.
Impala와 Hive 소개 -이번장에서 배울 것 0.Hive란 무엇인가 -HDFS/HBase의 데이터를 다룰 때 SQL쿼리로 쓸 수 있게 해주는 툴이다. 1.Impala란 무엇인가 -HDFS/HBase의 데이터를 다룰 때 SQL쿼리로 쓸 수 있게 해주는 툴이다. 2.Impala와 Hive를 어떻게 비교할 것인가 -Hive 1.features를 더많이 가지고 있다. 2.배치 처리에 흔히 사용된다. 3.복잡한 데이터 타입/windowing analytics에 좋다 4.하둡 클러스터 데이터 처리 엔진에서 작업을 생산한다. -Impala 1.맵리듀스에서가 아니라 SQL 엔진에서 5배에서 50배까지 성능이 좋다. 2.데이터 분석과 interactive(상호적인) 쿼리에 이상적이다. 3.더많은 feature들이 계속 추가되고 있다. 4.하둡.. 2019. 12. 15.
sqoop으로 관계형 데이터 불러오기 sqoop으로 관계형 데이터 불러오기 -이번장에서 배울 것 0. sqoop 이 무엇인가? -Cloudera에서 원래 개발한 오픈 소스 아파치 프로젝트이다. -이름은 “SQL-to-Hadoop” 이걸 줄여서 만든 것이다. -HDFS와 데이터베이스 사이에서 데이터를 교량 역할을 한다. -하둡 맵리듀스를 사용하여 데이터를 불러오는 사용자 쪽의 어플리케이션이다. 1. RDBMS에서 가져온 테이블들을 하둡 클러스터로 어떻게 불러올지 -순서:1.테이블정보를 파악 -> 2.클러스터에 작업 할당 -> 3.테이블을 패치하고 HDFS로 보냄. (사용자에서 출발-> 1.데이터베이스 2.HDFS 3.데이터베이스-HDFS) 1:가능하면 기본키를 결정한다. 2:boundary query를 실행하여 불러올 레코드들을 본다. 3:작.. 2019. 12. 15.
유사 사용자 찾기 1. 협업필터링 '추천시스템' 카테고리에 개념에 관한 설명이 있습니다. 2. 선호 정보 수집 예시로 쓸 데이터를 만듭니다. - 영화 비평과 영화 평가 정보를 담은 딕셔너리 - 각각의 사람들이 영화에 대한 평점을 매긴 데이터입니다. critics={"Lisa Rose":{'Lady in the Water':2.5, 'Snakes on a Plane':3.5, 'Just My Luck':3.0, 'Superman Returns':3.5, 'You, Me and Dupree':2.5,'The Night Listener':3.0}, "Gene Seymour":{'Lady in the Water':3.0, 'Snakes on a Plane':3.5, 'Just My Luck':1.5, 'Superman Retur.. 2019. 11. 29.
집단지성소개 "집단 지성 프로그래밍"이라는 책을 토대로 데이터를 활용한 다양한 기술과 알고리즘에 대한 학습을 합니다. 책의 순서대로 차근차근 간략하게 요약해 나가면서 얕고 넓게 지식을 익히는 것이 목표입니다. 끝까지 화이팅! 1. 집단지성이란 * 한 무리의 사람들의 행동, 선택, 아이디어들을 결합해서 통찰력을 생성하는데 사용한다고 합니다. 즉 단체의 성격, 특징 정도로 생각하면 될 것 같습니다. 예를 들어 표본조사, 인구조사가 있습니다. 이런 통계적 방법 등을 이용하여 새로운 결론을 유추하는 것을 집단지성이라고도 말합니다. 위키피디아, 구글 검색엔진 등도 있습니다. 2.기계학습이란 * 컴퓨터가 스스로 학습하게 하는 알고리즘에 관련된 인공지능의 한 영역이라고 합니다. 대부분의 경우 주어진 데이터의 집합을 이용해서 데이.. 2019. 11. 29.
구글 비트코인 뉴스 크롤링 구글 검색창에 'bitcoin'을 검색하여 나온 뉴스들에 대한 크롤링을 하였습니다. 1. 날짜별로 검색을 하게하고, 출력된 뉴스들의 링크를 가져옵니다. -> 신문사를 몇개 정해놓고 정한 신문사에 해당하는 뉴스 링크만 가져왔습니다. 2. 뉴스들의 링크를 가지고 기사 내용을 수집해옵니다. -> 신문사 홈페이지마다 html형식이 다르기 때문에 각각 형식에 맞게 크롤링 코드를 만들어 줍니다. 1. 뉴스 링크 가져오기 ( + 날짜, 제목, url ) -사용될 모듈들을 우선 임포트 해줍니다. from selenium import webdriver from selenium.webdriver.common.keys import Keys from bs4 import BeautifulSoup import time impor.. 2019. 11. 29.
구글 검색 뉴스 감성분석 구글에 'bitcoin'을 검색하여 나온 뉴스들을 수집하여 각 뉴스마다 감성점수를 부여하였습니다. 그리고 비트코인 시세와 관련된 데이터를 수집하여 이들을 분석해서 의미있는 결과를 만들어 봅니다. 문장에 대해 긍정/부정/중립으로 분류하기 위한 기준을 마련하기 위하여 VADER 모델을 사용하였습니다. VADER모델은 간략한 설명으로는 소셜 미디어 텍스트의 감성 분석을 위한 Parsimonious Rule-based Model이라고 명시하고 있으며, [1]을 참고하면 좋을 것 같습니다. 혹시라도 이 모델을 사용하기 위해 코드를 가져다 연구 등에 활용하신다면 [1]을 꼭 명시해달라고 말하고 있습니다. VADER sentiment lexicon은 소셜 미디어 텍스트에서 표현된 극성이거나 강렬한 감정에 예민하다고 .. 2019. 11. 29.
IMDB 영화 댓글 크롤링 코드 학교 팀플 과제를 하기 위해 사용할 데이터를 수집하였습니다. 그리 방대한 양은 아니지만, 아래의 코드를 통해 크로링하는데 걸리는 시간은 대충 반나절 정도 걸린 듯 합니다. 초보적인 방법으로 크롤링한거라서 단순합니다. 데이터는 미국 영화 정보 사이트인 imdb.com 에서 데이터를 크롤링하였습니다. 댓글이 상당히 믿을만하고, 길이도 꽤 길어서 텍스트마이닝 공부할 때 유용하게 쓸 수 있다고 생각합니다. 이 코드를 그대로 사용하실거라면 우선 chromedrever를 다운받으셔야하고, 압축을 풀고 파일이 있는 절대경로까지 설정을 해주셔야합니다. 1. 필요한 모듈 설치하기. 아래에는 필요한 모듈을 설치하는 코드입니다. selenium과 BeautifulSoup을 병행하여 그때그때 사용하였습니다. from sele.. 2019. 11. 28.
728x90
반응형