Discovery and analysis of web usage patterns이번 섹션에서는 웹 사용 패턴을 통해서 유용한 정보를 발견 또는 분석하는 기법 등을 설명하고 있습니다. 일반적인 데이터마이닝 방법 들에서 소개된 것들과 크게 다르지 않는 것 같습니다. 다만 도메인이 조금변경되었고, 휴리스틱이 조금 다르다는 점. 결국에는 데이터마이닝이라는 분야는 각 분야, 도메인에서의 전문가가 '진정한 데이터마이너'다 라는 생각이 듭니다. 물론 기술적인 노하우를 무시할 순 없겠지만 말입니다.
Session and visitor analysis
Days, sessions, visitors, or domains 등의 정보를 통하여 뭉쳐진 정보를 통하여 이용자의 행동패턴을 분석할 수 있다. 즉, visitor behavior를 분석하는 것이 목적이며, 가장 직관적인 예로는 OLAP(OnLine Analytical Processing)이 있다.
Cluster analysis and visitor segmentation
- Usage based clustering model
- '유사한 패턴을 가진 이용자는 유사한 콘텐트를 볼 확률이 높다'
- User clusters & Page clusters matrix --> personalized Web content
- Calculating profile (weighted pageview pairs with threshold)
- Finding similar profile with new user profile
- Recommend unseen page in the cluster
- Transaction clusters?
Navigational behavior or other attributes that have been captured in the transaction file. - cl: cluster, |cl|: number of transactions in cl, pr: profile, p: page, w: weight, s: transaction vector of cl
- Mixture model (mixture of Markov model)
- 실제 동적인 웹사이트들을 표현하기에 basic probability distributions로 표현은 무리가 있다.
- Probabilistic Latent Semantic Analysis (PLSA)
Association and correlation analysis
- Association rule
- Multiple association rule
- Collaborative filtering
- Frequent item set graph
Analysis of sequential and navigational patterns
- Sequential pattern mining
- Longest repeating subsequences (LRS)
Classification and prediction based on web user transactions
- So what?
- Collaborative filtering
- Between a user's profile and a set of item ratings or a set of itmes visited or purchased ( ex_ amazon )
- The k-nearest neighbor approach
- User-based collaborative filtering
- How?
- 특정 user transaction과 가장 유사한 transactions 간의 유사도 계산을 통하여 나와 행동패턴이 유사한 이용자들의 통계적인 유사도 계산
- 특정 user의 아이템에 대한 가중치를 계산할 떄에 위에서 계산된 나와 유사한 패턴을 지닌 사람들의 유사도를 반영하여 내가 선택하는 아이템에 대한 degree of preference 즉 가중치를 변화시킨다
- What?
- 특정 이용자의 기호만을 가중치에 넣지 않고 대중의 기호가 weighted 된 query를 통하여 결과를 추출한다
- Assumption?
- 기호가 다른 사람들은 다른 "baselines"에서 시작한다
- Demerit?
- 1st phase에서 실시간으로 이용자의 정보들간의 유사도 계산의 복잡도가 크고, 이러한 transaction정보들은 수시로 변화하기 때문에 아이템들이 거의 변화하지 않는다고 하여도 매번 계산해야만 하는 문제점이 있다. 물론 아이템도 변화하지 않고 이용자들의 transactions 도 변화하지 않는다면 괜찮다(?)
- Item-based collaborative filtering
- How?
- 모든 아이템 i와 j간의 유사도를 미리 계산한다
- 특정 이용자가 i라는 아이템을 선택하였을 때에 위에서 계산된 유사한 아이템들의 정보를 통하여 현재 아이템 i에 대한 선호도에 가중치를 변화시킨다
- Merit?
- 전체 아이템이 변화하는 량보다 이용자 패턴이 변화하는 량이 클 것이므로, 상대적으로 user-based cf 보다는 성능이 뛰어날 것으로 예상된다
'강좌 > web data mining' 카테고리의 다른 글
WDM - Chapter 12. Web Usage Mining (3) (2) | 2008.04.15 |
---|---|
WDM - Chapter 12. Web Usage Mining (2) (0) | 2008.04.14 |
WDM - Chapter 12. Web Usage Mining (1) (0) | 2008.04.14 |