본문 바로가기

강좌/web data mining

WDM - Chapter 12. Web Usage Mining (4)

Discovery and analysis of web usage patterns
 이번 섹션에서는 웹 사용 패턴을 통해서 유용한 정보를 발견 또는 분석하는 기법 등을 설명하고 있습니다. 일반적인 데이터마이닝 방법 들에서 소개된 것들과 크게 다르지 않는 것 같습니다. 다만 도메인이 조금변경되었고, 휴리스틱이 조금 다르다는 점. 결국에는 데이터마이닝이라는 분야는 각 분야, 도메인에서의 전문가가 '진정한 데이터마이너'다 라는 생각이 듭니다. 물론 기술적인 노하우를 무시할 순 없겠지만 말입니다.

Session and visitor analysis
Days, sessions, visitors, or domains 등의 정보를 통하여 뭉쳐진 정보를 통하여 이용자의 행동패턴을 분석할 수 있다. 즉, visitor behavior를 분석하는 것이 목적이며, 가장 직관적인 예로는 OLAP(OnLine Analytical Processing)이 있다.

Cluster analysis and visitor segmentation

  1. Usage based clustering model
    1. '유사한 패턴을 가진 이용자는 유사한 콘텐트를 볼 확률이 높다'
    2. User clusters & Page clusters matrix --> personalized Web content
    3. Calculating profile (weighted pageview pairs with threshold)
    4. Finding similar profile with new user profile
    5. Recommend unseen page in the cluster
    6. Transaction clusters?
      Navigational behavior or other attributes that have been captured in the transaction file.

    7. cl: cluster, |cl|: number of transactions in cl, pr: profile, p: page, w: weight, s: transaction vector of cl
  2. Mixture model (mixture of Markov model)
    1. 실제 동적인 웹사이트들을 표현하기에 basic probability distributions로 표현은 무리가 있다.
  3. Probabilistic Latent Semantic Analysis (PLSA)


Association and correlation analysis
  1. Association rule

  2. Multiple association rule

  3. Collaborative filtering

  4. Frequent item set graph


Analysis of sequential and navigational patterns
  1. Sequential pattern mining

  2. Longest repeating subsequences (LRS)


Classification and prediction based on web user transactions
  1. So what?
    1. Collaborative filtering
    2. Between a user's profile and a set of item ratings or a set of itmes visited or purchased ( ex_ amazon )
    3. The k-nearest neighbor approach
  2. User-based collaborative filtering
    1. How?
      1. 특정 user transaction과 가장 유사한 transactions 간의 유사도 계산을 통하여 나와 행동패턴이 유사한 이용자들의 통계적인 유사도 계산
      1. 특정 user의 아이템에 대한 가중치를 계산할 떄에 위에서 계산된 나와 유사한 패턴을 지닌 사람들의 유사도를 반영하여 내가 선택하는 아이템에 대한 degree of preference 즉 가중치를 변화시킨다
    2. What?
      1. 특정 이용자의 기호만을 가중치에 넣지 않고 대중의 기호가 weighted 된 query를 통하여 결과를 추출한다
    3. Assumption?
      1. 기호가 다른 사람들은 다른 "baselines"에서 시작한다
    4. Demerit?
      1. 1st phase에서 실시간으로 이용자의 정보들간의 유사도 계산의 복잡도가 크고, 이러한 transaction정보들은 수시로 변화하기 때문에 아이템들이 거의 변화하지 않는다고 하여도 매번 계산해야만 하는 문제점이 있다. 물론 아이템도 변화하지 않고 이용자들의 transactions 도 변화하지 않는다면 괜찮다(?)
  3. Item-based collaborative filtering
    1. How?
      1. 모든 아이템 i와 j간의 유사도를 미리  계산한다
      2. 특정 이용자가 i라는 아이템을 선택하였을 때에 위에서 계산된 유사한 아이템들의 정보를 통하여 현재 아이템 i에 대한 선호도에 가중치를 변화시킨다
    2. Merit?
      1. 전체 아이템이 변화하는 량보다 이용자 패턴이 변화하는 량이 클 것이므로, 상대적으로 user-based cf 보다는 성능이 뛰어날 것으로 예상된다

'강좌 > web data mining' 카테고리의 다른 글

WDM - Chapter 12. Web Usage Mining (3)  (2) 2008.04.15
WDM - Chapter 12. Web Usage Mining (2)  (0) 2008.04.14
WDM - Chapter 12. Web Usage Mining (1)  (0) 2008.04.14