본문 바로가기

Python

하둡 스트리밍을 통한 아파치 쿼리 로그 분석 하둡 커뮤니티 모임에서 Apache Log Analysis using Hadoop Streaming라는 제목으로 발표했던 내용을 블로그를 통해서 공개하고자 합니다. 진작 올렸어야 하는 건데 조금 실험을 더 해보려는 욕심에 시간이 지체되어 더 이상 있다가는 올리지도 못 할 것 같아 그냥 올리기만 해 봅니다. 저 또한 그랬으며 하둡 커뮤니티 모임에서 많으신 분들이 참석하고 계시지만, 현실적으로 하둡을 이용해서 실용적인 무언가 또는 실험을 하기는 쉽지만은 않은 것 같습니다. 하지만, 한재선 박사님께서 그러한 분산저장 및 처리에 필요한 하둡 플랫폼을 무료로 제공해 주시기로 하셨습니다. ^^ 현재 하둡 개발자 그룹을 통해서 혼자서 끙끙대면서 하둡을 겨우 설치하고 WordCount 한번 싱글노드에서 돌려보고 마는 .. 더보기
파이썬에서 효율적인 문자열 붙이기 Efficient String Concatenation in Python 파이썬에서 효율적인 문자열 결합 방법 (윗 글의 번역본) 랜덤 문자열을 포함하는 정해진 크기의 파일을 하나 생성하는 간단한 파이썬 프로그램을 하나 짜는데, 생각보다 성능이 나지 않는다는 이유로 이래저래 웹 서핑을 하다가 찾아낸 문서입니다. 일반적인 concatenate(+)를 하게될 경우 파이썬은 문조건 새로운 문자열을 생성하게 됩니다. 즉, 메모리 잡아먹는 귀신이라는 얘기지요, 하지만 list 를 사용하여 append하고, 주기적으로 flush하는 기법으로 접근하게 되면, 종속성도 없을 뿐더러 메모리 및 성능 문제도 부가적으로 해결할 수가 있었습니다. 가장 중요하게 여기는 부분은, '성능>속도>메모리'순으로 실험해 보았습니다. d.. 더보기