RSS 구독 (Blog)

오늘은 간단하게 HDFS 상의 파일을 읽어오는 방법을 포스팅 하겠습니다. 큰사이즈와 적은사이즈를 outer join할 경우 적은사이즈의 데이터를 읽어들여 메모리에 저장한 후(HashMap 등) 이것을 이용하여 큰데이터를 mapper 단에서 바로 join을 하는 식의 응용이 가능합니다. 먼저 HDFS access를 위한 class 입니다. import java.io.InputStreamReader; import java.util.HashSet; import java.util.zip.GZIPInputStream; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; publ.......

2015-06-10 10:46:15 · 산소소년

2015-06-10 10:46:15 · 산소소년

2015-06-10 01:46:15 · 산소소년

2015-06-10 01:46:15 · 산소소년

SPARK을 설치했으니 이제 Mllib을 이용한 기계학습을 시도해 보겠습니다. 사용한 데이터는 https://archive.ics.uci.edu/ml/machine-learning-databases/spambase/spambase.zip 로, 스팸/정상매일을 구분하고 각 단어의 빈도를 뽑아놓은 데이터 입니다. 자세한 데이터/필드 설명은 압축을 풀어보면 확인 가능합니다. zeppelin을 이용한 작업을 구성해 보겠습니다. 1. 우선 shell-script로 데이터를 다운로드 한 후 hdfs에 올려놓습니다. %sh wget http://archive.ics.uci.edu/ml/machine-learning-databases/spambase/spambase.zip unziip sambase.zip hadoop fs -mkdir -p /user/hadoop/ml/spam hadoop fs put spambase.* /user/hadoop/ml/spam .......

2015-05-20 13:17:40 · 산소소년

2015-05-20 13:17:40 · 산소소년

2015-05-20 04:17:40 · 산소소년

2015-05-20 04:17:40 · 산소소년

주저리 주저리 메모해 놓은 것이라 정리가 안되어 있습니다만 필요할 것 같아 올려놓습니다. 추후 정리 하겠습니다. https://spark.apache.org/docs/latest/tuning.html https://www.safaribooksonline.com/library/view/learning-spark/9781449359034/ch04.html Serialize에 Kryo 사용 Conf.set("spark.serializer", org.apache.spark.serializer.KryoSerializer") Conf.set("spark.kryo.registrationRequeired", "true") Conf.registerKryoClasses(Array(classOf[MyClass], classOf[MyOtherClass])) Use MEMORY_ONLY_SER Rdd.cache() -> MEMORY_ONLY Rdd.persist(명시) -> 다른 레벨 가능 Storage Level Meaning MEMORY_ONLY Store RDD a.......

2015-05-19 10:44:56 · 산소소년

2015-05-19 10:44:56 · 산소소년

2015-05-19 01:44:56 · 산소소년

2015-05-19 01:44:56 · 산소소년

후에 작업할 클러스터링 그래프를 이쁘게 그려볼려고 틈틈히 D3.js를 공부 중입니다. 이 예제는 막대그래프 그리기~! 요런 놈이 나옵니다. data.cvs는 item1,item2,item3 111,222,333 444,555,666 777,888,999 222,333,444 형식으로 저장하시고 연습하면 됩니다. 예제에선 첫번째 컬럼(item1)만 로딩해서 사용했습니다. D3 Test .axis text { font-family: sans-serif; font-size: 11px; } .axis path, .axis line { fill: none; stroke: black; }

2015-05-14 19:50:32 · 산소소년

후에 작업할 클러스터링 그래프를 이쁘게 그려볼려고 틈틈히 D3.js를 공부 중입니다. 이 예제는 막대그래프 그리기~! 요런 놈이 나옵니다. data.cvs는 item1,item2,item3 111,222,333 444,555,666 777,888,999 222,333,444 형식으로 저장하시고 연습하면 됩니다. 예제에선 첫번째 컬럼(item1)만 로딩해서 사용했습니다. <HTML> <HEAD> <TITLE>D3 Test</TITLE> <META charset="utf-8" /> <SCRIPT src="http://d3js.org/d3.v3.min.js"></SCRIPT> <STYLE> .axis text { font-family: sans-serif; font-size: 11px; } .axis path, .axis line { fill: none; stroke: black; } </STYLE> </H.......

2015-05-14 19:50:32 · 산소소년

후에 작업할 클러스터링 그래프를 이쁘게 그려볼려고 틈틈히 D3.js를 공부 중입니다. 이 예제는 막대그래프 그리기~! 요런 놈이 나옵니다. data.cvs는 item1,item2,item3 111,222,333 444,555,666 777,888,999 222,333,444 형식으로 저장하시고 연습하면 됩니다. 예제에선 첫번째 컬럼(item1)만 로딩해서 사용했습니다. <HTML> <HEAD> <TITLE>D3 Test</TITLE> <META charset="utf-8" /> <SCRIPT src="http://d3js.org/d3.v3.min.js"></SCRIPT> <STYLE> .axis text { font-family: sans-serif; font-size: 11px; } .axis path, .axis line { fill: none; stroke: black; } </STYLE> </H.......

2015-05-14 10:50:32 · 산소소년