1. 구분자 및 줄바꿈을 명시한 외부 테이블의 생성 CREATE EXTERNAL TABLE IF NOT EXISTS $TABLE ( f1 char(10), f2 char(8), f3 char(7) ) PARTITIONED BY (dt string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' 2. 재삽입 시 기존 파티션 제거 ALTER TABLE ${TABLE} DROP PARTITION(dt='$WORK_DATE'); 3. external partition 연결 ALTER TABLE $TABLE ADD PARTITION(dt='$WORK_DATE') location '$HDFS_EXTERN' 이러한 과정이 M/R전처리, hive집계를 위한 기본적인 순서이다. 하지만 쿼리로 처리가 더 쉬울 경우 테이블에서 바로 외부테이블을 생성하여 그곳에 데이터를 붓는 방법도 유용하다. (hive로 처리하.......
2015-08-18 02:03:15 · 산소소년오늘은 간단하게 HDFS 상의 파일을 읽어오는 방법을 포스팅 하겠습니다. 큰사이즈와 적은사이즈를 outer join할 경우 적은사이즈의 데이터를 읽어들여 메모리에 저장한 후(HashMap 등) 이것을 이용하여 큰데이터를 mapper 단에서 바로 join을 하는 식의 응용이 가능합니다. 먼저 HDFS access를 위한 class 입니다. import java.io.InputStreamReader; import java.util.HashSet; import java.util.zip.GZIPInputStream; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; publ.......
2015-06-10 10:46:15 · 산소소년오늘은 간단하게 HDFS 상의 파일을 읽어오는 방법을 포스팅 하겠습니다. 큰사이즈와 적은사이즈를 outer join할 경우 적은사이즈의 데이터를 읽어들여 메모리에 저장한 후(HashMap 등) 이것을 이용하여 큰데이터를 mapper 단에서 바로 join을 하는 식의 응용이 가능합니다. 먼저 HDFS access를 위한 class 입니다. import java.io.InputStreamReader; import java.util.HashSet; import java.util.zip.GZIPInputStream; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; publ.......
2015-06-10 10:46:15 · 산소소년오늘은 간단하게 HDFS 상의 파일을 읽어오는 방법을 포스팅 하겠습니다. 큰사이즈와 적은사이즈를 outer join할 경우 적은사이즈의 데이터를 읽어들여 메모리에 저장한 후(HashMap 등) 이것을 이용하여 큰데이터를 mapper 단에서 바로 join을 하는 식의 응용이 가능합니다. 먼저 HDFS access를 위한 class 입니다. import java.io.InputStreamReader; import java.util.HashSet; import java.util.zip.GZIPInputStream; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; publ.......
2015-06-10 01:46:15 · 산소소년오늘은 간단하게 HDFS 상의 파일을 읽어오는 방법을 포스팅 하겠습니다. 큰사이즈와 적은사이즈를 outer join할 경우 적은사이즈의 데이터를 읽어들여 메모리에 저장한 후(HashMap 등) 이것을 이용하여 큰데이터를 mapper 단에서 바로 join을 하는 식의 응용이 가능합니다. 먼저 HDFS access를 위한 class 입니다. import java.io.InputStreamReader; import java.util.HashSet; import java.util.zip.GZIPInputStream; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; publ.......
2015-06-10 01:46:15 · 산소소년SPARK, ZEPPELIN을 이용한 머신러닝 (Decision Tree)
SPARK을 설치했으니 이제 Mllib을 이용한 기계학습을 시도해 보겠습니다. 사용한 데이터는 https://archive.ics.uci.edu/ml/machine-learning-databases/spambase/spambase.zip 로, 스팸/정상매일을 구분하고 각 단어의 빈도를 뽑아놓은 데이터 입니다. 자세한 데이터/필드 설명은 압축을 풀어보면 확인 가능합니다. zeppelin을 이용한 작업을 구성해 보겠습니다. 1. 우선 shell-script로 데이터를 다운로드 한 후 hdfs에 올려놓습니다. %sh wget http://archive.ics.uci.edu/ml/machine-learning-databases/spambase/spambase.zip unziip sambase.zip hadoop fs -mkdir -p /user/hadoop/ml/spam hadoop fs put spambase.* /user/hadoop/ml/spam .......
2015-05-20 13:17:40 · 산소소년SPARK, ZEPPELIN을 이용한 머신러닝 (Decision Tree)
SPARK을 설치했으니 이제 Mllib을 이용한 기계학습을 시도해 보겠습니다. 사용한 데이터는 https://archive.ics.uci.edu/ml/machine-learning-databases/spambase/spambase.zip 로, 스팸/정상매일을 구분하고 각 단어의 빈도를 뽑아놓은 데이터 입니다. 자세한 데이터/필드 설명은 압축을 풀어보면 확인 가능합니다. zeppelin을 이용한 작업을 구성해 보겠습니다. 1. 우선 shell-script로 데이터를 다운로드 한 후 hdfs에 올려놓습니다. %sh wget http://archive.ics.uci.edu/ml/machine-learning-databases/spambase/spambase.zip unziip sambase.zip hadoop fs -mkdir -p /user/hadoop/ml/spam hadoop fs put spambase.* /user/hadoop/ml/spam .......
2015-05-20 13:17:40 · 산소소년SPARK, ZEPPELIN을 이용한 머신러닝 (Decision Tree)
SPARK을 설치했으니 이제 Mllib을 이용한 기계학습을 시도해 보겠습니다. 사용한 데이터는 https://archive.ics.uci.edu/ml/machine-learning-databases/spambase/spambase.zip 로, 스팸/정상매일을 구분하고 각 단어의 빈도를 뽑아놓은 데이터 입니다. 자세한 데이터/필드 설명은 압축을 풀어보면 확인 가능합니다. zeppelin을 이용한 작업을 구성해 보겠습니다. 1. 우선 shell-script로 데이터를 다운로드 한 후 hdfs에 올려놓습니다. %sh wget http://archive.ics.uci.edu/ml/machine-learning-databases/spambase/spambase.zip unziip sambase.zip hadoop fs -mkdir -p /user/hadoop/ml/spam hadoop fs put spambase.* /user/hadoop/ml/spam .......
2015-05-20 04:17:40 · 산소소년SPARK, ZEPPELIN을 이용한 머신러닝 (Decision Tree)
SPARK을 설치했으니 이제 Mllib을 이용한 기계학습을 시도해 보겠습니다. 사용한 데이터는 https://archive.ics.uci.edu/ml/machine-learning-databases/spambase/spambase.zip 로, 스팸/정상매일을 구분하고 각 단어의 빈도를 뽑아놓은 데이터 입니다. 자세한 데이터/필드 설명은 압축을 풀어보면 확인 가능합니다. zeppelin을 이용한 작업을 구성해 보겠습니다. 1. 우선 shell-script로 데이터를 다운로드 한 후 hdfs에 올려놓습니다. %sh wget http://archive.ics.uci.edu/ml/machine-learning-databases/spambase/spambase.zip unziip sambase.zip hadoop fs -mkdir -p /user/hadoop/ml/spam hadoop fs put spambase.* /user/hadoop/ml/spam .......
2015-05-20 04:17:40 · 산소소년주저리 주저리 메모해 놓은 것이라 정리가 안되어 있습니다만 필요할 것 같아 올려놓습니다. 추후 정리 하겠습니다. https://spark.apache.org/docs/latest/tuning.html https://www.safaribooksonline.com/library/view/learning-spark/9781449359034/ch04.html Serialize에 Kryo 사용 Conf.set("spark.serializer", org.apache.spark.serializer.KryoSerializer") Conf.set("spark.kryo.registrationRequeired", "true") Conf.registerKryoClasses(Array(classOf[MyClass], classOf[MyOtherClass])) Use MEMORY_ONLY_SER Rdd.cache() -> MEMORY_ONLY Rdd.persist(명시) -> 다른 레벨 가능 Storage Level Meaning MEMORY_ONLY Store RDD a.......
2015-05-19 10:44:56 · 산소소년주저리 주저리 메모해 놓은 것이라 정리가 안되어 있습니다만 필요할 것 같아 올려놓습니다. 추후 정리 하겠습니다. https://spark.apache.org/docs/latest/tuning.html https://www.safaribooksonline.com/library/view/learning-spark/9781449359034/ch04.html Serialize에 Kryo 사용 Conf.set("spark.serializer", org.apache.spark.serializer.KryoSerializer") Conf.set("spark.kryo.registrationRequeired", "true") Conf.registerKryoClasses(Array(classOf[MyClass], classOf[MyOtherClass])) Use MEMORY_ONLY_SER Rdd.cache() -> MEMORY_ONLY Rdd.persist(명시) -> 다른 레벨 가능 Storage Level Meaning MEMORY_ONLY Store RDD a.......
2015-05-19 10:44:56 · 산소소년주저리 주저리 메모해 놓은 것이라 정리가 안되어 있습니다만 필요할 것 같아 올려놓습니다. 추후 정리 하겠습니다. https://spark.apache.org/docs/latest/tuning.html https://www.safaribooksonline.com/library/view/learning-spark/9781449359034/ch04.html Serialize에 Kryo 사용 Conf.set("spark.serializer", org.apache.spark.serializer.KryoSerializer") Conf.set("spark.kryo.registrationRequeired", "true") Conf.registerKryoClasses(Array(classOf[MyClass], classOf[MyOtherClass])) Use MEMORY_ONLY_SER Rdd.cache() -> MEMORY_ONLY Rdd.persist(명시) -> 다른 레벨 가능 Storage Level Meaning MEMORY_ONLY Store RDD a.......
2015-05-19 01:44:56 · 산소소년주저리 주저리 메모해 놓은 것이라 정리가 안되어 있습니다만 필요할 것 같아 올려놓습니다. 추후 정리 하겠습니다. https://spark.apache.org/docs/latest/tuning.html https://www.safaribooksonline.com/library/view/learning-spark/9781449359034/ch04.html Serialize에 Kryo 사용 Conf.set("spark.serializer", org.apache.spark.serializer.KryoSerializer") Conf.set("spark.kryo.registrationRequeired", "true") Conf.registerKryoClasses(Array(classOf[MyClass], classOf[MyOtherClass])) Use MEMORY_ONLY_SER Rdd.cache() -> MEMORY_ONLY Rdd.persist(명시) -> 다른 레벨 가능 Storage Level Meaning MEMORY_ONLY Store RDD a.......
2015-05-19 01:44:56 · 산소소년후에 작업할 클러스터링 그래프를 이쁘게 그려볼려고 틈틈히 D3.js를 공부 중입니다. 이 예제는 막대그래프 그리기~! 요런 놈이 나옵니다. data.cvs는 item1,item2,item3 111,222,333 444,555,666 777,888,999 222,333,444 형식으로 저장하시고 연습하면 됩니다. 예제에선 첫번째 컬럼(item1)만 로딩해서 사용했습니다. D3 Test .axis text { font-family: sans-serif; font-size: 11px; } .axis path, .axis line { fill: none; stroke: black; }
2015-05-14 19:50:32 · 산소소년후에 작업할 클러스터링 그래프를 이쁘게 그려볼려고 틈틈히 D3.js를 공부 중입니다. 이 예제는 막대그래프 그리기~! 요런 놈이 나옵니다. data.cvs는 item1,item2,item3 111,222,333 444,555,666 777,888,999 222,333,444 형식으로 저장하시고 연습하면 됩니다. 예제에선 첫번째 컬럼(item1)만 로딩해서 사용했습니다. <HTML> <HEAD> <TITLE>D3 Test</TITLE> <META charset="utf-8" /> <SCRIPT src="http://d3js.org/d3.v3.min.js"></SCRIPT> <STYLE> .axis text { font-family: sans-serif; font-size: 11px; } .axis path, .axis line { fill: none; stroke: black; } </STYLE> </H.......
2015-05-14 19:50:32 · 산소소년후에 작업할 클러스터링 그래프를 이쁘게 그려볼려고 틈틈히 D3.js를 공부 중입니다. 이 예제는 막대그래프 그리기~! 요런 놈이 나옵니다. data.cvs는 item1,item2,item3 111,222,333 444,555,666 777,888,999 222,333,444 형식으로 저장하시고 연습하면 됩니다. 예제에선 첫번째 컬럼(item1)만 로딩해서 사용했습니다. <HTML> <HEAD> <TITLE>D3 Test</TITLE> <META charset="utf-8" /> <SCRIPT src="http://d3js.org/d3.v3.min.js"></SCRIPT> <STYLE> .axis text { font-family: sans-serif; font-size: 11px; } .axis path, .axis line { fill: none; stroke: black; } </STYLE> </H.......
2015-05-14 10:50:32 · 산소소년후에 작업할 클러스터링 그래프를 이쁘게 그려볼려고 틈틈히 D3.js를 공부 중입니다. 이 예제는 막대그래프 그리기~! 요런 놈이 나옵니다. data.cvs는 item1,item2,item3 111,222,333 444,555,666 777,888,999 222,333,444 형식으로 저장하시고 연습하면 됩니다. 예제에선 첫번째 컬럼(item1)만 로딩해서 사용했습니다. <HTML> <HEAD> <TITLE>D3 Test</TITLE> <META charset="utf-8" /> <SCRIPT src="http://d3js.org/d3.v3.min.js"></SCRIPT> <STYLE> .axis text { font-family: sans-serif; font-size: 11px; } .axis path, .axis line { fill: none; stroke: black; } </STYLE> </H.......
2015-05-14 10:50:32 · 산소소년Git 설치 후 (mvn 등은 spark 설치 시 준비 했으므로) 우선 다운 받고~! git clone https://github.com/apache/incubator-zeppelin.git zeppelin 빌드~! (spark 설치 시 사용되었던 hadoop, spark 프로파일을 명시한다) mvn clean install -DskipTests -Pspark-1.3 -Dspark.version=1.3.0 -Phadoop-2.4 -Dhadoop.version=2.6.0 -> 프로파일 옵션을 안주면 artifact 어쩌구 하면서 빌드가 안되니 꼭 해주시길~ aws에서 구동하다보니 Maven 버전이 낮아 컴파일 불가 ㅠ.ㅠ Apt-get upgrade Apt-get install maven2 -> 버전이 왜 2.2.1로 변하냐 ㅡㅡ; Apt-get install maven 위의과정 실패~! Maven 최신버전 강제설치 Apt-get remove maven A.......
2015-04-30 17:12:19 · 산소소년Git 설치 후 (mvn 등은 spark 설치 시 준비 했으므로) 우선 다운 받고~! git clone https://github.com/apache/incubator-zeppelin.git zeppelin 빌드~! (spark 설치 시 사용되었던 hadoop, spark 프로파일을 명시한다) mvn clean install -DskipTests -Pspark-1.3 -Dspark.version=1.3.0 -Phadoop-2.4 -Dhadoop.version=2.6.0 -> 프로파일 옵션을 안주면 artifact 어쩌구 하면서 빌드가 안되니 꼭 해주시길~ aws에서 구동하다보니 Maven 버전이 낮아 컴파일 불가 ㅠ.ㅠ Apt-get upgrade Apt-get install maven2 -> 버전이 왜 2.2.1로 변하냐 ㅡㅡ; Apt-get install maven 위의과정 실패~! Maven 최신버전 강제설치 Apt-get remove maven A.......
2015-04-30 17:12:19 · 산소소년Git 설치 후 (mvn 등은 spark 설치 시 준비 했으므로) 우선 다운 받고~! git clone https://github.com/apache/incubator-zeppelin.git zeppelin 빌드~! (spark 설치 시 사용되었던 hadoop, spark 프로파일을 명시한다) mvn clean install -DskipTests -Pspark-1.3 -Dspark.version=1.3.0 -Phadoop-2.4 -Dhadoop.version=2.6.0 -> 프로파일 옵션을 안주면 artifact 어쩌구 하면서 빌드가 안되니 꼭 해주시길~ aws에서 구동하다보니 Maven 버전이 낮아 컴파일 불가 ㅠ.ㅠ Apt-get upgrade Apt-get install maven2 -> 버전이 왜 2.2.1로 변하냐 ㅡㅡ; Apt-get install maven 위의과정 실패~! Maven 최신버전 강제설치 Apt-get remove maven A.......
2015-04-30 08:12:19 · 산소소년