RSS 구독 (Blog)

crontab 샘플

자주 사용하지 않아서인지 사용할 때마다 검색을 ㅠ.ㅠ 필드 샘플은 다음과 같습니다. 0 4 * * * /home/airguy/cron_process/00.run.sh > /home/airguy/cron_process/logs/run_`date +\%Y\%m\%d_\%H\%M\%S`.log 2>&1 필드순서마다 의미는 1. 분 2. 시 3. 일 4. 월 5. 주 6. 실행할 명령 입니다. 그러므로 위의 샘플은 매년 매월 매일 새벽 4시에 00.run.sh 을 실행하라는 명령입니다. 또 stdout, stderr를 logs/run_yyyymmdd_hhmmss.log에 저장합니다. 감사감사!

2015-10-27 10:51:59 | 산소소년

crontab 샘플

2015-10-27 10:51:59 | 산소소년

crontab 샘플

2015-10-27 01:51:59 | 산소소년

crontab 샘플

2015-10-27 01:51:59 | 산소소년

HIVE external 테이블 생성방법

1. 구분자 및 줄바꿈을 명시한 외부 테이블의 생성 CREATE EXTERNAL TABLE IF NOT EXISTS $TABLE ( f1 char(10), f2 char(8), f3 char(7) ) PARTITIONED BY (dt string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' 2. 재삽입 시 기존 파티션 제거 ALTER TABLE ${TABLE} DROP PARTITION(dt='$WORK_DATE'); 3. external partition 연결 ALTER TABLE $TABLE ADD PARTITION(dt='$WORK_DATE') location '$HDFS_EXTERN' 이러한 과정이 M/R전처리, hive집계를 위한 기본적인 순서이다. 하지만 쿼리로 처리가 더 쉬울 경우 테이블에서 바로 외부테이블을 생성하여 그곳에 데이터를 붓는 방법도 유용하다. (hive로 처리하.......

2015-08-18 11:03:15 | 산소소년

HIVE external 테이블 생성방법

2015-08-18 11:03:15 | 산소소년

HIVE external 테이블 생성방법

2015-08-18 02:03:15 | 산소소년

HIVE external 테이블 생성방법

2015-08-18 02:03:15 | 산소소년

[HADOOP] HDFS 에서 파일 읽기

오늘은 간단하게 HDFS 상의 파일을 읽어오는 방법을 포스팅 하겠습니다. 큰사이즈와 적은사이즈를 outer join할 경우 적은사이즈의 데이터를 읽어들여 메모리에 저장한 후(HashMap 등) 이것을 이용하여 큰데이터를 mapper 단에서 바로 join을 하는 식의 응용이 가능합니다. 먼저 HDFS access를 위한 class 입니다. import java.io.InputStreamReader; import java.util.HashSet; import java.util.zip.GZIPInputStream; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; publ.......

2015-06-10 10:46:15 | 산소소년

[HADOOP] HDFS 에서 파일 읽기

2015-06-10 10:46:15 | 산소소년

[HADOOP] HDFS 에서 파일 읽기

2015-06-10 01:46:15 | 산소소년

[HADOOP] HDFS 에서 파일 읽기

2015-06-10 01:46:15 | 산소소년

SPARK, ZEPPELIN을 이용한 머신러닝 (Decision Tree)

SPARK을 설치했으니 이제 Mllib을 이용한 기계학습을 시도해 보겠습니다. 사용한 데이터는 https://archive.ics.uci.edu/ml/machine-learning-databases/spambase/spambase.zip 로, 스팸/정상매일을 구분하고 각 단어의 빈도를 뽑아놓은 데이터 입니다. 자세한 데이터/필드 설명은 압축을 풀어보면 확인 가능합니다. zeppelin을 이용한 작업을 구성해 보겠습니다. 1. 우선 shell-script로 데이터를 다운로드 한 후 hdfs에 올려놓습니다. %sh wget http://archive.ics.uci.edu/ml/machine-learning-databases/spambase/spambase.zip unziip sambase.zip hadoop fs -mkdir -p /user/hadoop/ml/spam hadoop fs put spambase.* /user/hadoop/ml/spam .......

2015-05-20 13:17:40 | 산소소년

SPARK, ZEPPELIN을 이용한 머신러닝 (Decision Tree)

2015-05-20 13:17:40 | 산소소년

SPARK, ZEPPELIN을 이용한 머신러닝 (Decision Tree)

2015-05-20 04:17:40 | 산소소년

SPARK, ZEPPELIN을 이용한 머신러닝 (Decision Tree)

2015-05-20 04:17:40 | 산소소년

SPARK 튜닝 포인트

주저리 주저리 메모해 놓은 것이라 정리가 안되어 있습니다만 필요할 것 같아 올려놓습니다. 추후 정리 하겠습니다. https://spark.apache.org/docs/latest/tuning.html https://www.safaribooksonline.com/library/view/learning-spark/9781449359034/ch04.html Serialize에 Kryo 사용 Conf.set("spark.serializer", org.apache.spark.serializer.KryoSerializer") Conf.set("spark.kryo.registrationRequeired", "true") Conf.registerKryoClasses(Array(classOf[MyClass], classOf[MyOtherClass])) Use MEMORY_ONLY_SER Rdd.cache() -> MEMORY_ONLY Rdd.persist(명시) -> 다른 레벨 가능 Storage Level Meaning MEMORY_ONLY Store RDD a.......

2015-05-19 10:44:56 | 산소소년