본문 바로가기

오픈소스/hadoop

install hadoop 2.x on mac os x http://zhongyaonan.com/hadoop-tutorial/setting-up-hadoop-2-6-on-mac-osx-yosemite.html http://withsmilo.github.io/bigdata/2016/06/01/setup-hadoop-2.7.2-on-osx/$ brew tap homebrew/versions $ brew install protobuf250 $ brew link --force --overwrite protobuf250 $ protoc --version libprotoc 2.5.0 $ brew install cmake $ wget http://www.eu.apache.org/dist/hadoop/common/hadoop-2.7.1/hadoop-2.7.1-src.tar.. 더보기
Google이 1PB자료의 정렬을 MapReduce를 사용하여 성공했다고 합니다 Sorting 1PB with MapReduce 몇 달 전이었던 것으로 기억하는데요, 1TB 자료의 정렬을 하는 문제에서 야후가 하둡의 맵리듀스를 통하여 209초에 성공했다는 기사(standard terabyte (TB) sort benchmark)를 본 적이 있습니다. 당시에 그 기사를 읽으면서 야~ 이거 구글에서 한다면 과연 얼마나 걸릴까 하는 생각을 잠시 해보았었는데요, 이번에 그 실험 결과를 내 놓았습니다. 과연 명불허전 구글의 경우 1TB의 자료를 무려 68초에 완료했다고 합니다. 물론 야후의 경우 장비를 910대 사용했고, 구글은 1,000대를 사용했다고 합니다. 장비대수의 문제는 아니라고 보여집니다. 더욱 재미있는 것은 구글이 1PB도 시도를 했다는 것입니다. 1PB라고 하면, 1TB의 1,.. 더보기
하둡 스트리밍을 통한 아파치 쿼리 로그 분석 하둡 커뮤니티 모임에서 Apache Log Analysis using Hadoop Streaming라는 제목으로 발표했던 내용을 블로그를 통해서 공개하고자 합니다. 진작 올렸어야 하는 건데 조금 실험을 더 해보려는 욕심에 시간이 지체되어 더 이상 있다가는 올리지도 못 할 것 같아 그냥 올리기만 해 봅니다. 저 또한 그랬으며 하둡 커뮤니티 모임에서 많으신 분들이 참석하고 계시지만, 현실적으로 하둡을 이용해서 실용적인 무언가 또는 실험을 하기는 쉽지만은 않은 것 같습니다. 하지만, 한재선 박사님께서 그러한 분산저장 및 처리에 필요한 하둡 플랫폼을 무료로 제공해 주시기로 하셨습니다. ^^ 현재 하둡 개발자 그룹을 통해서 혼자서 끙끙대면서 하둡을 겨우 설치하고 WordCount 한번 싱글노드에서 돌려보고 마는 .. 더보기
하둡 최신 버전(0.18.1) 릴리스 정보입니다. http://hadoop.apache.org/core/docs/r0.18.1/releasenotes.html 0.17.2 stable 버전과의 차이점 중에서 주목할 만한 것들만 뽑아 보았습니다. dfs Improved management of replicas of the name space image. if all replicas on the Name Node are lost,the latest check point can be loaded from the secondary Name Node. Use parameter "-importCheckpoint" and specify the location with "fs.checkpoint.dir." The directory structure on the sec.. 더보기
하둡은 무려 새로운 비지니스 모델까지 창출해 내고 있군요 Cloudera can help you install, configure and run Hadoop for large-scale data processing and analysis. We support Hadoop whether you run it on servers in your own data center or use Amazon's Elastic Compute Cloud 우연히 하둡을 통하여 아파치 로그를 분석한 사람들의 포스팅을 살피다가 Cloudera라는 회사를 알게 되었는데요..현재는 하둡의 설치, 구성, 데이터 처리 및 분석에 관한 컨설팅을 해주는 회사입니다. Cloudera was founded in 2008 to provide enterprise-level support to users .. 더보기
Hadoop: The Definitive Guide O'Reilly 에서 하둡에 관한 책이 나오는 모양입니다. O'Reilly에서 하둡에 관한 책이 나오는 군요... 목차를 대충 살펴보면 하둡 파일시스템에 대한 설명과 API사용법 분산 컴퓨팅 환경에서의 MapReduce를 통한 개발 하둡의 데이터 입출력, 블록의 생성 및 압축 등 실제 운영되는 맵리듀스 프로그램에 대한 것과 빠지기 쉬운 함정 설계, 구현 및 하둡 클러스터 관리 ZooKeeper, Pig 및 HBase에 관한 내용 등 사파리 북으로 현재 프리뷰를 보실 수 있고요, Manning사의 MEAP과 유사하게 Rough Cuts이라는 이름으로 PDF로 미리 판매를 하고 있습니다. 프리뷰를 통해서 보았을 때에는 하둡을 처음 접하는 사람에게는 상당히 유용할 듯 보이고요, 이미 충분히 활용하고 있는 사람에게는 조금 아쉽지 않을까 하는 생각이 듭니다. 뭐랄까, 현.. 더보기
한국 하둡 커뮤니티 두 번째 모임을 다녀왔습니다 한국 하둡 커뮤니티 구글 그룹스 첫 번째 세션은 한재선 박사님께서 (NexR) 'Naive Bayes Classifier를 이용한 Spam Filtering의 MapReduce 구현' 이라는 주제로 강연을 해주셨습니다. 실제 돌아가는 환경에서 시연도 해주셨고요.. 물론 MapReduce 시연이라면 아시는 분들은 다 아시겠지만, MapReduce결과 로그와 vi 로 결과 파일을 읽는 것 밖에는 없지만 말입니다. 이러한 부분 외에도 기계학습을 분산환경에서 쉽게 운영할 수 있는 플랫폼을 개발하고 계신다는 소식과 더불어, 조만간 그러한 서비스 환경을 일반인에게도 공개한다는 언급도 하셨습니다. 가상화를 통하여 제한된 환경이긴 합니다만, 분산환경을 접하기 힘든 개발자 입장에서는 희소식이 아닐 수 없겠습니다. 또, .. 더보기