data mining for information retrieval

본문 바로가기

수혁이가 생각하는 한 해 계획을 세우는 방법 살아가면서 사람들은 늘 드러나게 또는 드러나지 않게 많은 계획들을 세우면서 살아가고 있습니다. 저 또한 그러하고요, 하지만 그 중에서 대부분의 계획들은 잊혀지거나 제대로 지켜지지 않기 마련인 것 같습니다. 뭐랄까 정말 열심히 계획을 세우고, 추진해 나가지만 시간이 지나면서 잊혀진다고 해야할지 마음이 변한다고 해야할지 모르겠지만, 어쨌거나 제대로 지켜지지 않는 계획을 세우고 그러고 있는 것 같습니다. 제가 생각하는 한 해의 계획을 세우는 가장 중요한 요소는 아래의 세 가지 정도입니다. 하나. 충분히 매력적이고 큰 목표를 세워라. - 그렇지 않으면, 동기부여가 되지 않을 것이며, 하고 싶은 생각조차 들지 않을 것이다. 둘째. 아주 구체적이고 측정 가능한 목표를 세워라. - 그렇지 않으면, 지키지 않아도 별로.. 더보기

Google이 1PB자료의 정렬을 MapReduce를 사용하여 성공했다고 합니다 Sorting 1PB with MapReduce 몇 달 전이었던 것으로 기억하는데요, 1TB 자료의 정렬을 하는 문제에서 야후가 하둡의 맵리듀스를 통하여 209초에 성공했다는 기사(standard terabyte (TB) sort benchmark)를 본 적이 있습니다. 당시에 그 기사를 읽으면서 야~ 이거 구글에서 한다면 과연 얼마나 걸릴까 하는 생각을 잠시 해보았었는데요, 이번에 그 실험 결과를 내 놓았습니다. 과연 명불허전 구글의 경우 1TB의 자료를 무려 68초에 완료했다고 합니다. 물론 야후의 경우 장비를 910대 사용했고, 구글은 1,000대를 사용했다고 합니다. 장비대수의 문제는 아니라고 보여집니다. 더욱 재미있는 것은 구글이 1PB도 시도를 했다는 것입니다. 1PB라고 하면, 1TB의 1,.. 더보기

하둡 스트리밍을 통한 아파치 쿼리 로그 분석 하둡 커뮤니티 모임에서 Apache Log Analysis using Hadoop Streaming라는 제목으로 발표했던 내용을 블로그를 통해서 공개하고자 합니다. 진작 올렸어야 하는 건데 조금 실험을 더 해보려는 욕심에 시간이 지체되어 더 이상 있다가는 올리지도 못 할 것 같아 그냥 올리기만 해 봅니다. 저 또한 그랬으며 하둡 커뮤니티 모임에서 많으신 분들이 참석하고 계시지만, 현실적으로 하둡을 이용해서 실용적인 무언가 또는 실험을 하기는 쉽지만은 않은 것 같습니다. 하지만, 한재선 박사님께서 그러한 분산저장 및 처리에 필요한 하둡 플랫폼을 무료로 제공해 주시기로 하셨습니다. ^^ 현재 하둡 개발자 그룹을 통해서 혼자서 끙끙대면서 하둡을 겨우 설치하고 WordCount 한번 싱글노드에서 돌려보고 마는 .. 더보기

이전 1 ··· 45 46 47 48 49 50 51 ··· 62 다음

티스토리툴바