본문 바로가기

강좌/web data mining

WDM - Chapter 11. Opinion Mining - Sentiment Classification


Opinion Mining 이라고 하면, 말 그대로 표현 하자면, 의견을 마이닝 하는 것인데, 이러한 의견들은 웹 상의 UGC (User Generated Contents), UGM (User Generated Media) 등으로 표출될 것입니다.

예를들어, 특정 product 에 대해서 positive 한 opinion을 나타내는 글에서는 new product 를 recommend할 수 있을 것이나 negative 한 경우는 내보내서는 안되겠지요. 물론 이러한 opinion을 추출하기 위해서는 그러한 의견을 가진 글(evaluative texts)인지 아닌지를 분석하는 것이 선행되어야 할 것입니다.

자 그렇다면, 어떻게 수 억건의 문서들 중에서 대상에 대한 의견을 가진 문서와 그러지 않은 문서를 찾고, 긍정적인 또는 부정적인 의견을 구별할 수 있을까요?
이번 챕터에서는 이러한 과정을 크게 2가지 파트로 나누어 설명하고 있는데요, 전반부인 Evaluative Texts Classification, 그리고 후반부인 Opinion Search & Opinion Spam으로 구성되어 있습니다.

우선 Evaluative Texts 의 분류는 어떻게 할 것인지에 대한 것들을 정리해 보았습니다

  1. Sentiment Classification
    1. Document level
    2. 우선은 '감성적인 분류'에 대한 접근방법인데요, 해당 문서가 얼마나 많은 감성적인 단어 즉, 의견을 지닌 문서인지를 판별하는 과정입니다.
  2. Featured-based opinion mining and summarization
    1. Sentence level
    2. Object에 대한 사람들이 좋은점과 싫은점을 판별하는 과정
    3. 굳이 Object라고 한 것은, 대상이 제품이 될 수도 있고, 서비스, 토픽, 개인 또는 기관 등 다양한 객체를 지칭할 수 있기 때문입니다.
  3. Comparative sentence and relation mining
    1. Sentence level
    2. 비교 구문을 통한 관계 분석 정도 일까요?
    3. 특정 Object에 대한 positive negative 한 의견이라기 보다는 다른 Object 의 특정 feature 보다는 상대적으로 낳다라는 정보입니다.
이렇게 정리를 하는 것 자체가 나름대로 의미는 있을지 모르겠지만, 스스로에게는 큰 도움이 되지 않을 것 같다는 생각이 조금 들고 있습니다. 그래서 차라리 조그만 프로젝트로 확장해보는 것은 어떨까 생각하고 있습니다.
 

This article was written in springnote.

'강좌 > web data mining' 카테고리의 다른 글

WDM - Chapter 12. Web Usage Mining (3)  (2) 2008.04.15
WDM - Chapter 12. Web Usage Mining (2)  (0) 2008.04.14
WDM - Chapter 12. Web Usage Mining (1)  (0) 2008.04.14