본문 바로가기

오픈소스

install hadoop 2.x on mac os x http://zhongyaonan.com/hadoop-tutorial/setting-up-hadoop-2-6-on-mac-osx-yosemite.html http://withsmilo.github.io/bigdata/2016/06/01/setup-hadoop-2.7.2-on-osx/$ brew tap homebrew/versions $ brew install protobuf250 $ brew link --force --overwrite protobuf250 $ protoc --version libprotoc 2.5.0 $ brew install cmake $ wget http://www.eu.apache.org/dist/hadoop/common/hadoop-2.7.1/hadoop-2.7.1-src.tar.. 더보기
Jupyter Scala Kernel 설치 http://people.duke.edu/~ccc14/sta-663/Jupyter.htmltar -xvf jove-scala-cli_2.11-0.1.1-1-SNAPSHOT.tar.gzcd jove-scala-cli-0.1.1-1-SNAPSHOT./jove-scala --kernel-spec 더보기
zookeeper 파이썬 라이브러리 kazoo 설치는 kazoo-2.2.1, six-1.10.0 설치가 필요하며, 필요시에 setuptools 도 설치하되 sudo 권한이 없다면 .bashrc 정보에 PYTHONPATH 변경# 압축을 푼 경로에서 아래와 같은 방식으로 설치python setup.py --prefix=/home/psyoblade/install/setuptools # cat .bashrcSETUPTOOLS="/home/psyoblade/install/setuptools/lib/python2.7/site-packages"export PYTHONPATH="$SETUPTOOLS" 예제 프로그램 실행 - https://kazoo.readthedocs.org/en/latest/api.htmlfrom kazoo.client import KazooC.. 더보기
맥에서 Spark 설치 및 Scala 통한 Spark 프로그래밍 Home Brew 설치 (http://brew.sh/index_ko.html)ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install) "Hadoop 최신버전 설치 (http://moonlighting.tistory.com/150)brew install hadoop Spark 최신버전 설치 (http://hoondongkim.blogspot.kr/2014/10/portable-centos-stand-alone.html)tar -xvfz spark-1.5.2-bin-hadoop2.6.tar Spark-Shell 테스트 (http://spark.apache.org/docs/latest/quick-start.h.. 더보기
YARN 환경에서 우지(Oozie) 빌드 및 설치 Build Oozie$ curl -O http://apache.mirror.cdnetworks.com/oozie/4.2.0/oozie-4.2.0.tar.gz$$ tar zxvf oozie-4.2.0.tar.gz$ tar$ cd oozie-4.2.0$ export MAVEN_OPTS=-Xmx1024m$ bin/mkdistro.sh -DskipTests Install Oozie$ mkdir oozie ; cd oozie$ cp /home/psyoblade/oozie-4.2.0/distro/target/oozie-4.2.0-distro.tar.gz .$ tar zxvf oozie-4.2.0-distro.tar.gz$ cd oozie-4.2.0 Create Oozie War여기가 중요한데, 결국 우지는 자기가 .. 더보기
Mongo-Hadoop Integration http://www.slideshare.net/mixmax99/mongodb-hadoop-integrationhttp://www.slideshare.net/mongodb/hadoop-webinarhttps://github.com/mongodb/mongo-hadoop/wiki/Configuration-Reference Mongo hadoop input formatmongo.job.input.format=com.mongodb.hadoop.MongoInputFormat mongo.input.uri=mongodb://my-db:27017/enron.messages Read from MongoDB Read from BSON mongo.job.input.format=com.mongodb.hadoop.BSONFile.. 더보기
MongoDB Hadoop Connector 사용기 하둡 버전에 따라 맵리듀스 인터페이스가 다르기 때문에 Mongo Hadoop Connector 의 경우에도 컴파일을 별도로 해야만 한다. 아래에서는 최신버전을 가져왔기 때문에 SNAPSHOT 버전으로 빌드가 되었으나, tag 버전을 가져와서 빌드하는 것을 추천한다. gradle 이라는 조금은 특별한 빌드 도구를 사용해야 하는데, 윈도우 버전을 별도로 설치 후, github 을 통해서 connector 코드를 내려 받은 후, jar 파일을 build 한다.D:\workspace\mongo\mongo-hadoop> gradlew -Phadoop_version=0.23 jar D:\workspace\mongo\mongo-hadoop\core\build\libs mongo-hadoop-core-1.4.0-SNA.. 더보기
문서의 크기가 작으면 집계함수 성능이 올라갈까? 처음 호기심은 문서가 아주 큰 경우에 건 수가 얼마 되지 않아도 디스크 I/O 때문에 어쩔 수 없이 느려지게 된다. 그러면 문서가 아주 작고 100만건 정도 문서들의 집계함수는 빨라지는가? db.foo.createIndex({dt:1,did:1,ps:1}) var start = new Date()db.foo.aggregate([{$match:{dt:"20150629"}},{$project: {dt:1, did:1}},{$group:{_id:{dt:"$dt", did:"$did"}, cnt:{$sum:1}}}],{allowDiskUse:true})var end = new Date()print(end-start)8.110 secs 2~300mb disk i/o speed 만족스러울 만한 수준은 아니며, 우선.. 더보기
몽고디비 궁금한 점들 타임존이 다를때 ISODate 일자 별 집계 문제점한국은 GMT+9 이므로, "$dayOfMonth" 함수를 통해 집계하면 9시간 당겨 출력"$dateToString" 함수와 "$add" 함수를 통해 9시간을 더해 준 뒤에 집계실제 자바 프로그램 상에서 Date 함수를 사용하면 되기 때문에 문제는 없음단, 외부 입력일자가 없는 집계인 경우 Group By Month 는 문제가 됨d1 = ISODate("2015-06-12T23:00:00.000Z")d2 = ISODate("2015-06-13T00:00:00.000Z")d3 = ISODate("2015-06-13T01:00:00.000Z")d4 = ISODate("2015-06-13T02:00:00.000Z")d5 = ISODate("2015-06-13T.. 더보기
PIG - Exceeded max jobconf size 현상 Message: org.apache.hadoop.ipc.RemoteException: java.io.IOException: java.io.IOException: Exceeded max jobconf size: 5591299 limit: 5242880 원인 Pig의 경우 수행 전에 Script가 import 하고 있는 모드 코드를 expanding하게되는데 이 떄에 이를테면 반복되는 코드를 게임서버별로 동일한 테이블을 가져와서 UNION을 하는 경우에 서버가 100개라면 100개의 동일한 스키마를 가져오는 상황이 발생하므로 최종 JobConf 파일 크기가 5메가를 넘어갈 수가 있다 대안 최대허용용량을 늘리는 방법은 적절하지 못하며 LOAD 함수에서는 스키마를 정하지 않고 그대로 읽어와서 최종 UNIO.. 더보기