본문 바로가기

WDM - Chapter 11. Opinion Mining - Sentiment Classification Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data (Data-Centric Systems and Applications) Opinion Mining 이라고 하면, 말 그대로 표현 하자면, 의견을 마이닝 하는 것인데, 이러한 의견들은 웹 상의 UGC (User Generated Contents), UGM (User Generated Media) 등으로 표출될 것입니다. 예를들어, 특정 product 에 대해서 positive 한 opinion을 나타내는 글에서는 new product 를 recommend할 수 있을 것이나 negative 한 경우는 내보내서는 안되겠지요. 물론 이러한 opinion을 추출하기 위해서는 그러한 의견을 가진 글(e.. 더보기
Opinion Mining을 활용한 미니 프로젝트 (1) Bing Liu 교수님의 Web Data Mining 책의 11장에서 소개되고 있는 Opinion Mining 에 대한 자그만한 프로젝트를 해볼까 합니다. 뭐 거창하게 시작하는 것도 우습고, 우선 경험적으로 프로토타이핑 정도로 시작하려고 합니다. 우선, 아래와 같은 일정으로 진행하면 어떨까 생각하고 있습니다. 범위 : 11.1 Sentiment Classification 목적 : 특정 페이지가 Evaluative document 인지를 구분하는 시스템 구현 기간 : 4/13(일) ~ 4/21(화) 상세일정 : Text summarization책에서 언급된 방법 들 분석 및 요약 Thesis survey and summarization3가지 기법 중에서 한 가지 선택선택한 기법의 원 논문 읽기 및 분석 S.. 더보기
확률분포 (1) 이번에는 '확률분포'라는 개념에 대한 내용인데요, 영어로는 Probability Distribution, 한글로 풀어쓴다고 해도 그다지 직관적이지는 못한 개념인 것 같습니다. 내 나름대로 생각하는 정의는 다음과 같습니다. 확률분포란? 세상의 모든 일(사건)이 일어나는 것에 대하여 수학적인 관점에서 보게된다면 확률로 표현할 수 있을 겁니다. 즉 동전을 던졌을 때에 앞면이 나올 확률 또는 성별이 남성이고 나이가 얼마일 때에 신장 또는 몸무게 등이 어느정도 구간에 있을 확률으로 말입니다. 즉, 이러한 사건이 얼마나 공평하게 발생하는지 또는 그렇지 못한 지에 대한 정보를 수치로 표현하는 것이라 생각합니다. 이러한 표현을 할 때에 몸무게, 신장 등과 같이 연속적인 자료의 경우에는 '연속형분포' 동전 던지기와 같이.. 더보기