본문 바로가기
728x90
반응형

분류 전체보기190

Pair RDD와 함께 데이터 병합. -이번장에서 배울 것 0.일반 RDD로 부터 키-값 형태의 Pair RDD를 어떻게 생성하는지. -Pair RDD는 RDD의 특별한 형태이다. 각 원소들이 키-값 형태로 되어 있고, 키와 벨류는 어 떤 타입도 될 수 있다. -왜 Pair RDD를 사용하냐면, 바로 맵리듀스 알고리즘을 사용하기 위해서이다. 흔한 데이터 처리에 필요한 많은 추가적인 함수들이 이용가능하다. ex)sorting, joining, grouping, counting, etc. -Pair RDD를 만들기. 우선 map, flatMap/flatMapValues, keyBy와 같은 함수가 필요하다. 1.Pair RDD에 이용가능한 특별한 연산은 어떤게 있는지. 1.간단한 Pair RDD만들기. users= sc.textFile(file).. 2019. 12. 15.
RDD와 함께 스파크 활용하기. -이번장에서 배울 것 0.메모리에서 데이터 또는 파일로 RDD를 어떻게 생성할지 -RDD는 여러 타입이 될 수 있다. 1.단일 타입: integers, characters, booleans, etc. 2.시퀀스 타입: strings, lists, arrays, tuples, dicts, etc.(nested 데이터 타입 포함.) 3.Scala/Java Object(serializable인 경우) 4.Mixed Types -몇몇 RDD 타입은 추가적인 기능을 가지고 있다. -Pair RDDs: 키와 값을 쌍으로 가지는 형태 -Double RDDs: 숫자 데이터로 구성된 형태 -RDD를 시퀀스 타입의 데이터에서 바로 가져와본다. myData = [‘Alice’,’Carlos’,’Frank’,’Barbara’.. 2019. 12. 15.
스파크 기초 -이번장에서 배울 것 0.Spark Shell을 사용하는 방법 -pyspark와 spark-shell이 있다. 이들은 학습이나 데이터 탐색에 interactive(대화식)하다. 1.SparkContext 사용하는 방법 -sc라고 불리는 Spark Context를 사용합니다. 2.RDD의 주요 개념 -그들은 무엇인가? -RDD(Resilient Distributed Dataset) -Resilient는 메모리에서 데이터가 사라져도 다시 재생할 수 있다는 뜻, Distributed는 클러스터를 통하여 처리한다는 뜻, Dataset은 최초 데이터는 파일로 불러와지거나 프로그래밍으로 생성될 수 있다는 뜻이다. -RDD는 스파크에서 기본적인 데이터 단위이다. -대부분의 스파크 프로그래밍은 RDD의 수행으로 구성된.. 2019. 12. 15.
데이터 파일 파티셔닝 -이번장에서 배울 것 0.데이터 파일을 파티셔닝함으로써 쿼리 성능을 어떻게 향상시키는지 -파티셔닝은 두개의 구문으로 포함된다. -Storage: 데이터를 올바른 파티션위치에 놓는 것. -Retrieval: 파티션으로부터 쿼리를 통해 분석할 데이터를 얻는 것. 1.Impala와 Hive로 파티션된 테이블들을 어떻게 생성하고 조작하는지 -하둡은 파티셔닝을 할 수 있다. -Hive와 Impala로 지원한다. --hive-import를 사용할 때, --hive-partition-key 와 --hive-partition-value를 사용하여 sqoop을 통해 파티션할 수 있다. -Spark, MapReduce, Flume 들이 파티션된 데이터를 저장하기위해 사용된다. -Impala/Hive의 파티셔닝 작업 예. .. 2019. 12. 15.
Impala와 Hive로 모델링하고 관리하기 -이번장에서 배울 것 0.Impala와 Hive가 Metastore를 사용하는 방법 -Hive와 Impala는 데이터 포맷과 경로를 결정하기 위해 Metastore를 사용합니다. RDBMS에서 데이터의 테이블 구조와 경로를 얻고 쿼리를 통해 데이터를 HDFS로 옮겨줍니다. 메타데이터란 각 데이터의 중요한 특징을 설명하는 것입니다. (columns) 1.Impala SQL과 HiveQL DDL 로 테이블을 만드는 방법 -데이터베이스와 테이블을 생성하고 관리하기 위해서 HiveQL또는 DDL(Data Definition Language) 또는 Impala SQL을 사용합니다. 표준 SQL DDL과 매우 유사합니다. 작은 차이점이라고 한다면 Hive와 Impala DDL 사이에 있긴 하다. -데이터베이스 생성.. 2019. 12. 15.
Impala와 Hive 소개 -이번장에서 배울 것 0.Hive란 무엇인가 -HDFS/HBase의 데이터를 다룰 때 SQL쿼리로 쓸 수 있게 해주는 툴이다. 1.Impala란 무엇인가 -HDFS/HBase의 데이터를 다룰 때 SQL쿼리로 쓸 수 있게 해주는 툴이다. 2.Impala와 Hive를 어떻게 비교할 것인가 -Hive 1.features를 더많이 가지고 있다. 2.배치 처리에 흔히 사용된다. 3.복잡한 데이터 타입/windowing analytics에 좋다 4.하둡 클러스터 데이터 처리 엔진에서 작업을 생산한다. -Impala 1.맵리듀스에서가 아니라 SQL 엔진에서 5배에서 50배까지 성능이 좋다. 2.데이터 분석과 interactive(상호적인) 쿼리에 이상적이다. 3.더많은 feature들이 계속 추가되고 있다. 4.하둡.. 2019. 12. 15.
728x90
반응형