RSS 구독 (Blog)

원격리눅스장비[EC2]에서 visual tool 활용

putty랑 puttygen 등을 이용하여 원격장비에 접속이 가능하다는 전재 하에 설명합니다. putty의 X11항목 설정 윈도우즈 장비에 Xming 설치 http://sourceforge.net/projects/xming/ 리눅스장비에 필요요소 설치 apt-get update apt-get install xorg openbox putty에서 x-terminal 실행 > xterm gnuplot 같은 것이 제대로 작동되나 확인해보면 됩니다.!!!!!!! 참조: http://simplefeatures.perroazul.net/?p=381

2014-10-02 10:49:26 | 산소소년

Standard Input을 Excel파일로 만들기

JXL을 이용해서 만들었습니다. option.separator을 통하여 필드구분자를 설정을 option.sheetlinelimit을 통하여 라인을 초과하는 라인을 다음시트로 넘기도록 설정하였습니다. #!/bin/sh PWD="/home/hadoop/work/airguy/StdInToExcel" JAVA_BIN="/usr/bin/java" CLASS_PATH="$PWD/ReportUtils.jar:$PWD/jxl.jar" PROGRAM_NAME="com.airguy.utils.report.StdInToExcel" OUTPUT=$1 MAXLINE=$2 SEPARATOR=$3 if [ -z $MAXLINE ] ; then MAXLINE="5000" fi if [ -z $SEPARATOR ] ; then SEPARATOR="\\^" #SEPARATOR="\t" fi $JAVA_BIN \ -Doption.separator=$SEPARATOR \ -Doption.sheetlinelimit=$MAXLINE \ -classpath $CLASS_PATH \ $PROGRAM_NAM.......

2014-09-30 15:54:19 | 산소소년

S3 distcp

방법1 hadoop distcp hdfs:HDFS경로 s3n://access키:secret키@버킷경로 secret키에 + / 등이 들어가면 작동불가능한 단점이 있다. 방법2 time hadoop distcp -Dfs.s3n.awsAccessKeyId="access키" -Dfs.s3n.awsSecretAccessKey="secret키" HDFS경로 s3n:버킷경로 방법3 <property> <name>fs.s3n.awsAccessKeyId</name> <value>access키</value> </property> <property> <name>fs.s3n.awsSecretAccessKey</name> <value>secret키</value> </property> core-site, mapred-site, hdfs-site 등 config에 직접 추가 @추가로 파일용량이 커서 600sec timeout이 날 때가 있다. .......

2014-09-30 11:24:10 | 산소소년

Task 정보 속성

mapred.job.id : String : jobid를 얻어옴 mapred.jar : String : job 디렉토리에서 jar 파일의 위치 job.local.dir : String : job의 로컬 scratch 경로 mapred.tip.id : String : task id mapred.task.id : String : task tasking id mapred.task.is.map : boolean : map task 인가? mapred.task.partition : int : job 내의 task id map.input.file : String : mapper의 파일경로 map.input.start : long : mapper 입력 분할 시작 오프셋 map.input.length : long : mapper 입력 분할 바이트 수 mapred.work.output.dir : String : result path job.get("~~~"); job.get("~~~", default); @Streamming map.input.file -> map_input_file

2014-06-19 11:04:07 | 산소소년

S3 -> HDFS

0 bytes를 솎아내고 hadoop에다 넣는 스크립트 다운받을 목록을 만든 후 클러스터 갯수만큼 N빵 후 나눠진 목록을 노드들에게 배포하여 각각의 노드가 S3CMD를 이용하여 다운로드 하고 HDFS에 put하는 스크립트 입니다. (로드밸런싱까지 되는거니 일거양득??? *^^*) distcp보다 빠르고 또 복사조건도 스크립트 상에 명시가능해서 편하게 사용하고 있습니다. --- run.sh #!/bin/bash PWD=$(cd `dirname $0` ; pwd) HADOOP_BIN="$HADOOP_HOME/bin/hadoop" S3CMD="/usr/local/bin/s3cmd" LIST_FILE="s3_list.txt" #YYYYMMDD WORK_DATE=$1 SHORT_DATE=`date +%y%m%d -d $WORK_DATE` #HDFS PATH for s3 input S3_BUCKET=$2 if [ -z $S3_BUCKET ] ; the.......

2014-06-17 11:26:14 | 산소소년