본문 바로가기

강좌/web data mining

WDM - Chapter 12. Web Usage Mining (4) Discovery and analysis of web usage patterns 이번 섹션에서는 웹 사용 패턴을 통해서 유용한 정보를 발견 또는 분석하는 기법 등을 설명하고 있습니다. 일반적인 데이터마이닝 방법 들에서 소개된 것들과 크게 다르지 않는 것 같습니다. 다만 도메인이 조금변경되었고, 휴리스틱이 조금 다르다는 점. 결국에는 데이터마이닝이라는 분야는 각 분야, 도메인에서의 전문가가 '진정한 데이터마이너'다 라는 생각이 듭니다. 물론 기술적인 노하우를 무시할 순 없겠지만 말입니다. Session and visitor analysis Days, sessions, visitors, or domains 등의 정보를 통하여 뭉쳐진 정보를 통하여 이용자의 행동패턴을 분석할 수 있다. 즉, visitor be.. 더보기
WDM - Chapter 12. Web Usage Mining (3) 이번 챕터에서는 웹 로그 마이닝을 통해서 어떠한 모델을 설계할 것인지에 대한 내용을 담고 있습니다. 즉, 많은 사람들이 선택했던 보았던 컨텐트들을 향후에 나타나는 유사한 행태를 가진 사람들에게 추천을 해주는 것입니다. Data modeling for web usage mining Weighted user transactions (for each pageview)weghts may be based on user ratings of items in collaborative filtering applicationUsing mean time for last page duration time lostUse a normalized value of page duration instead of raw time dura.. 더보기
WDM - Chapter 12. Web Usage Mining (2) 지난번 포스팅에 이어, 전처리에 대한 과정을 소개합니다. Sources and types of data 일반적으로 Web server access logs, Application server logs 가 있으며, 다양한 데이터 소스를 포함하고 있는데... Usage data방문자의 행태Content data Structure data페이지 간의 링크구조 User data이용자 정보 Key elements of web usage data pre-processing 그다지 특이할 만한 사항은 없으며, Sessionization 이라는 것은 특별한 기법이 아니라, 웹 서버의 Application의 LoginID 또는 SessionID 정보가 없다면, Heuristic한 기법으로 Session을 끊어 내겠다는 .. 더보기
WDM - Chapter 12. Web Usage Mining (1) 이번 장은 웹서버에서 저장되는 많은 로그 및 기타 정보를 이용하여 데이터 마이닝을 수행하는 것을 소개하고 있습니다. 무엇보다도 요즘 한창 각광을 받고 있는 Collective Intelligence 를 위한 밑거름이 될 수 있는 유용한 정보라고 할 수 있겠습니다. Web Usage Mining: automatic discovery and analysis of patterns in clickstream and associated data collected or generated as a result of user interactions with web resources on one or more web sites 이용자가 웹 상의 자료를 어떻게 이용하고 있는지 또는 어떠한 의도(intention)을 가지고.. 더보기
WDM - Chapter 11. Opinion Mining - Sentiment Classification Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data (Data-Centric Systems and Applications) Opinion Mining 이라고 하면, 말 그대로 표현 하자면, 의견을 마이닝 하는 것인데, 이러한 의견들은 웹 상의 UGC (User Generated Contents), UGM (User Generated Media) 등으로 표출될 것입니다. 예를들어, 특정 product 에 대해서 positive 한 opinion을 나타내는 글에서는 new product 를 recommend할 수 있을 것이나 negative 한 경우는 내보내서는 안되겠지요. 물론 이러한 opinion을 추출하기 위해서는 그러한 의견을 가진 글(e.. 더보기