본문 바로가기

all categories

Hadoop MapReduce를 이용하여 신경망 학습이 가능할까? 아파치 프로젝트로 진행중인 Mahout라는 프로젝트가 있는데, 이것은 Hadoop MapReduce를 통하여 Machine Learning을 하기 위한 프레임워크다. 하지만 Hadoop만큼이나 인기리에 진행되고 있지는 않는것 같다. 어쨌거나, 클릭로그 정보를 이용하여 문서와 입력된 키워드와의 관계를 neural network를 통하여 학습하고, 검색시에 랭킹에 반영하는 것을 실험해보고 있다. 자세한 내용은 집단지성 프로그래밍 (원서: Programming Collective Intelligence) 4장을 참고. 가장 힘든 부분은 feedforward 단계와 backpropagate 단계에서 node의 weight값과 link 의 weight값을 global하게 사용한다는 점에 있는데, 이를 분산환경에서.. 더보기
프로그래밍 면접 이렇게 준비한다 프로그래밍 면접 이렇게 준비한다 상세보기 존 몽건 지음 | 한빛미디어 펴냄 프 로그래밍 면접에 현명하게 대처하는 방법을 서술한 책. 미국에서 제일 잘 나가는 소프트웨어 및 컴퓨터 회사 면접 방식을 통해 프로그래밍 면접에 어떻게 대처 해야 하는 가를 서술한다. 《프로그래밍 면접 이렇게 준비한다》는 구직을 시작하기 전 알아야 할 사항과 입사 지원 절차, 프로그래밍 문제 접근법, 관련 질문과 무관한 질문에 대응하는 법 등으로 구성했다. 요즘은 알고리즘에 대해서 조금씩 공부하고 있습니다. IT에 종사하고 계신 아는 형님이 추천해주신 책인데, 지난 몇 주간 버스간에서 재미나게 읽었습니다. 뭐랄까, 계속 하지 않으면, 금새 잊혀진다고 해야할까요... 알고리즘에 대한 책은 항상 끼고 다녀야지 하는 생각이 들었습니다... 더보기
기계학습 기법을 이용한 문장 경계 인식 와~ 너무 오랜만에 블로그로 다시 돌아온 이 느낌~ 나름 고향에 돌아온 느낌이 듭니다. 그래도 와 주셨던 분들께 '또 그대로네..' 했던 것 같아 많이 부끄럽습니다. 어쨌거나, 최근 두 달간 논문을 준비하느라, 정신줄을 잠시 놓았더니.. 블로그가 황폐해진 느낌입니다. -_-;;; 작년에 했던 실험들을 바탕으로 올 초에 논문 디펜스를 하고, 정리하면 여유로워 질 것이라 생각했는데, 디펜스 할 때에 대박 깨지고, 논문에 대한 큰 줄기가 바뀌는 덕분에 두어달 정말 고생했습니다. 이제는 이런 저런 마무리 작업을 끝내고, 학위논문 제본을 맡긴 상태입니다. 마음이 한결 편해지고, 조금은 허전한 느낌입니다. 아쉽긴 합니다만, 그래도 뿌듯하네요~~ 서론이 너무 길었네요... 포스팅 제목이 제 논문의 제목이기도 합니다... 더보기
파이썬에서 효율적인 문자열 붙이기 Efficient String Concatenation in Python 파이썬에서 효율적인 문자열 결합 방법 (윗 글의 번역본) 랜덤 문자열을 포함하는 정해진 크기의 파일을 하나 생성하는 간단한 파이썬 프로그램을 하나 짜는데, 생각보다 성능이 나지 않는다는 이유로 이래저래 웹 서핑을 하다가 찾아낸 문서입니다. 일반적인 concatenate(+)를 하게될 경우 파이썬은 문조건 새로운 문자열을 생성하게 됩니다. 즉, 메모리 잡아먹는 귀신이라는 얘기지요, 하지만 list 를 사용하여 append하고, 주기적으로 flush하는 기법으로 접근하게 되면, 종속성도 없을 뿐더러 메모리 및 성능 문제도 부가적으로 해결할 수가 있었습니다. 가장 중요하게 여기는 부분은, '성능>속도>메모리'순으로 실험해 보았습니다. d.. 더보기
WDM - Chapter 12. Web Usage Mining (4) Discovery and analysis of web usage patterns 이번 섹션에서는 웹 사용 패턴을 통해서 유용한 정보를 발견 또는 분석하는 기법 등을 설명하고 있습니다. 일반적인 데이터마이닝 방법 들에서 소개된 것들과 크게 다르지 않는 것 같습니다. 다만 도메인이 조금변경되었고, 휴리스틱이 조금 다르다는 점. 결국에는 데이터마이닝이라는 분야는 각 분야, 도메인에서의 전문가가 '진정한 데이터마이너'다 라는 생각이 듭니다. 물론 기술적인 노하우를 무시할 순 없겠지만 말입니다. Session and visitor analysis Days, sessions, visitors, or domains 등의 정보를 통하여 뭉쳐진 정보를 통하여 이용자의 행동패턴을 분석할 수 있다. 즉, visitor be.. 더보기
육아에 관련된 읽었던 책들 최근 2년간 제가 보았던 육아에 관련된 책들을 모아보았습니다. 읽은지 제법 된 책들도 있어서, 사실 내용이 자세히 기억은 나지 않습니다만 생각나는 대로 몇 글자씩 적어보았습니다. 물론 이러한 책들의 구절 하나 하나를 기억하는 것과 실천하는 것도 중요하지만, 이러한노력들을 지속적으로 계속 하는 것이 더 중요하다는 생각이 듭니다. 무릇 부모라는 역할이 아이들이 바라고 필요할 것 같아서가 아니라 여러가지 노력(독서, 고민, 강좌 등등)들로 아이의 상황과 위치를 잘 이해할 수 있는 상태가 되도록 노력하는 자세를 가지는 것이 더 중요하다는 생각이 듭니다. 아버지가 나서면 딸의 인생이 바뀐다 상세보기 장경근 지음 | 황금부엉이 펴냄 에서 실제 경험을 토대로 쓰여진 책이니 만큼, 와닫는 글들이 있습니다. 뭔가 체계적.. 더보기
Opinion Mining을 활용한 미니 프로젝트 (3) 대충 책에 대한 요약도 끝난 것 같습니다. 처음 책을 읽을 때에는 잘 몰랐는데, 정리를 하면서 저자가 첫번째 방식에 무게를 두고 책을 쓴 것 같기도 하고요, 어쨌거나 두 번째, 세 번째 방법의 경우는 일반적으로 알려진 방식으로 접근 하는 것이니 저도 첫번째 방법을 선택하여 진행하기로 했습니다. 우선 관련논문을 읽은 후, 어떻게 구현해야할 지를 조금 고민해 보았습니다. Thesis survey and summarization 별도의 논문을 찾아본 것은 아니고, 원 논문을 쓰윽 훑어 보고, 책에 '잘 요약되어 있네' 하는 정도 이구요, 한 가지 확인했던 사항은 왜 그 많은 단어 중에서 'excellent' 와 'poor' 였을까 하는 것인데요, 일반적인 리뷰 사이트에서 점수를 매길 때에 1~5단계 정도로 구.. 더보기
WDM - Chapter 12. Web Usage Mining (3) 이번 챕터에서는 웹 로그 마이닝을 통해서 어떠한 모델을 설계할 것인지에 대한 내용을 담고 있습니다. 즉, 많은 사람들이 선택했던 보았던 컨텐트들을 향후에 나타나는 유사한 행태를 가진 사람들에게 추천을 해주는 것입니다. Data modeling for web usage mining Weighted user transactions (for each pageview)weghts may be based on user ratings of items in collaborative filtering applicationUsing mean time for last page duration time lostUse a normalized value of page duration instead of raw time dura.. 더보기
WDM - Chapter 12. Web Usage Mining (2) 지난번 포스팅에 이어, 전처리에 대한 과정을 소개합니다. Sources and types of data 일반적으로 Web server access logs, Application server logs 가 있으며, 다양한 데이터 소스를 포함하고 있는데... Usage data방문자의 행태Content data Structure data페이지 간의 링크구조 User data이용자 정보 Key elements of web usage data pre-processing 그다지 특이할 만한 사항은 없으며, Sessionization 이라는 것은 특별한 기법이 아니라, 웹 서버의 Application의 LoginID 또는 SessionID 정보가 없다면, Heuristic한 기법으로 Session을 끊어 내겠다는 .. 더보기
WDM - Chapter 12. Web Usage Mining (1) 이번 장은 웹서버에서 저장되는 많은 로그 및 기타 정보를 이용하여 데이터 마이닝을 수행하는 것을 소개하고 있습니다. 무엇보다도 요즘 한창 각광을 받고 있는 Collective Intelligence 를 위한 밑거름이 될 수 있는 유용한 정보라고 할 수 있겠습니다. Web Usage Mining: automatic discovery and analysis of patterns in clickstream and associated data collected or generated as a result of user interactions with web resources on one or more web sites 이용자가 웹 상의 자료를 어떻게 이용하고 있는지 또는 어떠한 의도(intention)을 가지고.. 더보기