본문 바로가기

웹데이터마이닝

WDM - Chapter 12. Web Usage Mining (4) Discovery and analysis of web usage patterns 이번 섹션에서는 웹 사용 패턴을 통해서 유용한 정보를 발견 또는 분석하는 기법 등을 설명하고 있습니다. 일반적인 데이터마이닝 방법 들에서 소개된 것들과 크게 다르지 않는 것 같습니다. 다만 도메인이 조금변경되었고, 휴리스틱이 조금 다르다는 점. 결국에는 데이터마이닝이라는 분야는 각 분야, 도메인에서의 전문가가 '진정한 데이터마이너'다 라는 생각이 듭니다. 물론 기술적인 노하우를 무시할 순 없겠지만 말입니다. Session and visitor analysis Days, sessions, visitors, or domains 등의 정보를 통하여 뭉쳐진 정보를 통하여 이용자의 행동패턴을 분석할 수 있다. 즉, visitor be.. 더보기
Opinion Mining을 활용한 미니 프로젝트 (3) 대충 책에 대한 요약도 끝난 것 같습니다. 처음 책을 읽을 때에는 잘 몰랐는데, 정리를 하면서 저자가 첫번째 방식에 무게를 두고 책을 쓴 것 같기도 하고요, 어쨌거나 두 번째, 세 번째 방법의 경우는 일반적으로 알려진 방식으로 접근 하는 것이니 저도 첫번째 방법을 선택하여 진행하기로 했습니다. 우선 관련논문을 읽은 후, 어떻게 구현해야할 지를 조금 고민해 보았습니다. Thesis survey and summarization 별도의 논문을 찾아본 것은 아니고, 원 논문을 쓰윽 훑어 보고, 책에 '잘 요약되어 있네' 하는 정도 이구요, 한 가지 확인했던 사항은 왜 그 많은 단어 중에서 'excellent' 와 'poor' 였을까 하는 것인데요, 일반적인 리뷰 사이트에서 점수를 매길 때에 1~5단계 정도로 구.. 더보기
WDM - Chapter 12. Web Usage Mining (3) 이번 챕터에서는 웹 로그 마이닝을 통해서 어떠한 모델을 설계할 것인지에 대한 내용을 담고 있습니다. 즉, 많은 사람들이 선택했던 보았던 컨텐트들을 향후에 나타나는 유사한 행태를 가진 사람들에게 추천을 해주는 것입니다. Data modeling for web usage mining Weighted user transactions (for each pageview)weghts may be based on user ratings of items in collaborative filtering applicationUsing mean time for last page duration time lostUse a normalized value of page duration instead of raw time dura.. 더보기
WDM - Chapter 12. Web Usage Mining (2) 지난번 포스팅에 이어, 전처리에 대한 과정을 소개합니다. Sources and types of data 일반적으로 Web server access logs, Application server logs 가 있으며, 다양한 데이터 소스를 포함하고 있는데... Usage data방문자의 행태Content data Structure data페이지 간의 링크구조 User data이용자 정보 Key elements of web usage data pre-processing 그다지 특이할 만한 사항은 없으며, Sessionization 이라는 것은 특별한 기법이 아니라, 웹 서버의 Application의 LoginID 또는 SessionID 정보가 없다면, Heuristic한 기법으로 Session을 끊어 내겠다는 .. 더보기
WDM - Chapter 12. Web Usage Mining (1) 이번 장은 웹서버에서 저장되는 많은 로그 및 기타 정보를 이용하여 데이터 마이닝을 수행하는 것을 소개하고 있습니다. 무엇보다도 요즘 한창 각광을 받고 있는 Collective Intelligence 를 위한 밑거름이 될 수 있는 유용한 정보라고 할 수 있겠습니다. Web Usage Mining: automatic discovery and analysis of patterns in clickstream and associated data collected or generated as a result of user interactions with web resources on one or more web sites 이용자가 웹 상의 자료를 어떻게 이용하고 있는지 또는 어떠한 의도(intention)을 가지고.. 더보기
Opinion Mining을 활용한 미니 프로젝트 (2) 지난번 포스팅에서 얘기한 대로, 교재의 요약을 먼저 해보았습니다. 이렇게 그냥 정리만 하는 데에도 시간이 제법 걸리네요... 한글로 번역은 되도록이면 줄이고, 원어를 그대로 사용하려고 하지만, 영 의미가 전달이 쉽지 않는 것에 대해서만 괄호로 묶어서 정리했습니다. Sentiment Classification (감성분류) 해당 문서에서 특정 객체에 대한 전반적인 의견 또는 개인적인 주관이 어떠한가에 대한 판단 또는 분류를 하는 것으로, 크게 아래의 세 가지의 접근방법이 소개되고 있습니다. 설명에 앞서 일반적으로 문서분류하면 생각나는 것이 토픽분류인데 아래와 같이 다른 점들이 있습니다. Topic Classfication vs. Sentiment Classification 토픽 관련 단어 위주의 명사 감성단.. 더보기
WDM - Chapter 11. Opinion Mining - Sentiment Classification Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data (Data-Centric Systems and Applications) Opinion Mining 이라고 하면, 말 그대로 표현 하자면, 의견을 마이닝 하는 것인데, 이러한 의견들은 웹 상의 UGC (User Generated Contents), UGM (User Generated Media) 등으로 표출될 것입니다. 예를들어, 특정 product 에 대해서 positive 한 opinion을 나타내는 글에서는 new product 를 recommend할 수 있을 것이나 negative 한 경우는 내보내서는 안되겠지요. 물론 이러한 opinion을 추출하기 위해서는 그러한 의견을 가진 글(e.. 더보기
Opinion Mining을 활용한 미니 프로젝트 (1) Bing Liu 교수님의 Web Data Mining 책의 11장에서 소개되고 있는 Opinion Mining 에 대한 자그만한 프로젝트를 해볼까 합니다. 뭐 거창하게 시작하는 것도 우습고, 우선 경험적으로 프로토타이핑 정도로 시작하려고 합니다. 우선, 아래와 같은 일정으로 진행하면 어떨까 생각하고 있습니다. 범위 : 11.1 Sentiment Classification 목적 : 특정 페이지가 Evaluative document 인지를 구분하는 시스템 구현 기간 : 4/13(일) ~ 4/21(화) 상세일정 : Text summarization책에서 언급된 방법 들 분석 및 요약 Thesis survey and summarization3가지 기법 중에서 한 가지 선택선택한 기법의 원 논문 읽기 및 분석 S.. 더보기