본문 바로가기

Mahout

Mahout란 무엇에다 쓰는 물건인고? 저의 최대의 관심사는 현재는 데이터 마이닝을 통한 정보검색을 하는 것인데요, 가장 관심이 가는 아파치 프로젝트는 단연 마하우트(Mahout)입니다. Mahout? A Mahout is a person who drives an elephant (hint: Hadoop's logo is an elephant.) 즉, 코끼리를 다루는 사람이라는 의미입니다. 로고는 여기서 다운로드 받을 수 있는데요 로고를 잘 보시면, 코끼리를 타고 있는 사람이 보이실 겁니다. 물론 코끼리를 다루는 사람이라고 해서 하둡을 대상으로 보다 상위에 있는 프로젝트는 아니라고 얘기하고 있습니다. 제 개인적인 생각으로는 하둡위에서 보다 더 고차원적인(?) 일을 하는 사람이라는 생각이 살짝 들었습니다. ^^ 이리저리 사이트를 둘러보면서 정리.. 더보기
Hadoop MapReduce를 이용하여 신경망 학습이 가능할까? 아파치 프로젝트로 진행중인 Mahout라는 프로젝트가 있는데, 이것은 Hadoop MapReduce를 통하여 Machine Learning을 하기 위한 프레임워크다. 하지만 Hadoop만큼이나 인기리에 진행되고 있지는 않는것 같다. 어쨌거나, 클릭로그 정보를 이용하여 문서와 입력된 키워드와의 관계를 neural network를 통하여 학습하고, 검색시에 랭킹에 반영하는 것을 실험해보고 있다. 자세한 내용은 집단지성 프로그래밍 (원서: Programming Collective Intelligence) 4장을 참고. 가장 힘든 부분은 feedforward 단계와 backpropagate 단계에서 node의 weight값과 link 의 weight값을 global하게 사용한다는 점에 있는데, 이를 분산환경에서.. 더보기