본문 바로가기
728x90
반응형

빅데이터 시스템9

Impala와 Hive로 모델링하고 관리하기 -이번장에서 배울 것 0.Impala와 Hive가 Metastore를 사용하는 방법 -Hive와 Impala는 데이터 포맷과 경로를 결정하기 위해 Metastore를 사용합니다. RDBMS에서 데이터의 테이블 구조와 경로를 얻고 쿼리를 통해 데이터를 HDFS로 옮겨줍니다. 메타데이터란 각 데이터의 중요한 특징을 설명하는 것입니다. (columns) 1.Impala SQL과 HiveQL DDL 로 테이블을 만드는 방법 -데이터베이스와 테이블을 생성하고 관리하기 위해서 HiveQL또는 DDL(Data Definition Language) 또는 Impala SQL을 사용합니다. 표준 SQL DDL과 매우 유사합니다. 작은 차이점이라고 한다면 Hive와 Impala DDL 사이에 있긴 하다. -데이터베이스 생성.. 2019. 12. 15.
Impala와 Hive 소개 -이번장에서 배울 것 0.Hive란 무엇인가 -HDFS/HBase의 데이터를 다룰 때 SQL쿼리로 쓸 수 있게 해주는 툴이다. 1.Impala란 무엇인가 -HDFS/HBase의 데이터를 다룰 때 SQL쿼리로 쓸 수 있게 해주는 툴이다. 2.Impala와 Hive를 어떻게 비교할 것인가 -Hive 1.features를 더많이 가지고 있다. 2.배치 처리에 흔히 사용된다. 3.복잡한 데이터 타입/windowing analytics에 좋다 4.하둡 클러스터 데이터 처리 엔진에서 작업을 생산한다. -Impala 1.맵리듀스에서가 아니라 SQL 엔진에서 5배에서 50배까지 성능이 좋다. 2.데이터 분석과 interactive(상호적인) 쿼리에 이상적이다. 3.더많은 feature들이 계속 추가되고 있다. 4.하둡.. 2019. 12. 15.
sqoop으로 관계형 데이터 불러오기 sqoop으로 관계형 데이터 불러오기 -이번장에서 배울 것 0. sqoop 이 무엇인가? -Cloudera에서 원래 개발한 오픈 소스 아파치 프로젝트이다. -이름은 “SQL-to-Hadoop” 이걸 줄여서 만든 것이다. -HDFS와 데이터베이스 사이에서 데이터를 교량 역할을 한다. -하둡 맵리듀스를 사용하여 데이터를 불러오는 사용자 쪽의 어플리케이션이다. 1. RDBMS에서 가져온 테이블들을 하둡 클러스터로 어떻게 불러올지 -순서:1.테이블정보를 파악 -> 2.클러스터에 작업 할당 -> 3.테이블을 패치하고 HDFS로 보냄. (사용자에서 출발-> 1.데이터베이스 2.HDFS 3.데이터베이스-HDFS) 1:가능하면 기본키를 결정한다. 2:boundary query를 실행하여 불러올 레코드들을 본다. 3:작.. 2019. 12. 15.
728x90
반응형