본문 바로가기

WDM - Chapter 12. Web Usage Mining (2) 지난번 포스팅에 이어, 전처리에 대한 과정을 소개합니다. Sources and types of data 일반적으로 Web server access logs, Application server logs 가 있으며, 다양한 데이터 소스를 포함하고 있는데... Usage data방문자의 행태Content data Structure data페이지 간의 링크구조 User data이용자 정보 Key elements of web usage data pre-processing 그다지 특이할 만한 사항은 없으며, Sessionization 이라는 것은 특별한 기법이 아니라, 웹 서버의 Application의 LoginID 또는 SessionID 정보가 없다면, Heuristic한 기법으로 Session을 끊어 내겠다는 .. 더보기
WDM - Chapter 12. Web Usage Mining (1) 이번 장은 웹서버에서 저장되는 많은 로그 및 기타 정보를 이용하여 데이터 마이닝을 수행하는 것을 소개하고 있습니다. 무엇보다도 요즘 한창 각광을 받고 있는 Collective Intelligence 를 위한 밑거름이 될 수 있는 유용한 정보라고 할 수 있겠습니다. Web Usage Mining: automatic discovery and analysis of patterns in clickstream and associated data collected or generated as a result of user interactions with web resources on one or more web sites 이용자가 웹 상의 자료를 어떻게 이용하고 있는지 또는 어떠한 의도(intention)을 가지고.. 더보기
Opinion Mining을 활용한 미니 프로젝트 (2) 지난번 포스팅에서 얘기한 대로, 교재의 요약을 먼저 해보았습니다. 이렇게 그냥 정리만 하는 데에도 시간이 제법 걸리네요... 한글로 번역은 되도록이면 줄이고, 원어를 그대로 사용하려고 하지만, 영 의미가 전달이 쉽지 않는 것에 대해서만 괄호로 묶어서 정리했습니다. Sentiment Classification (감성분류) 해당 문서에서 특정 객체에 대한 전반적인 의견 또는 개인적인 주관이 어떠한가에 대한 판단 또는 분류를 하는 것으로, 크게 아래의 세 가지의 접근방법이 소개되고 있습니다. 설명에 앞서 일반적으로 문서분류하면 생각나는 것이 토픽분류인데 아래와 같이 다른 점들이 있습니다. Topic Classfication vs. Sentiment Classification 토픽 관련 단어 위주의 명사 감성단.. 더보기