본문 바로가기

all categories

Opinion Mining을 활용한 미니 프로젝트 (2) 지난번 포스팅에서 얘기한 대로, 교재의 요약을 먼저 해보았습니다. 이렇게 그냥 정리만 하는 데에도 시간이 제법 걸리네요... 한글로 번역은 되도록이면 줄이고, 원어를 그대로 사용하려고 하지만, 영 의미가 전달이 쉽지 않는 것에 대해서만 괄호로 묶어서 정리했습니다. Sentiment Classification (감성분류) 해당 문서에서 특정 객체에 대한 전반적인 의견 또는 개인적인 주관이 어떠한가에 대한 판단 또는 분류를 하는 것으로, 크게 아래의 세 가지의 접근방법이 소개되고 있습니다. 설명에 앞서 일반적으로 문서분류하면 생각나는 것이 토픽분류인데 아래와 같이 다른 점들이 있습니다. Topic Classfication vs. Sentiment Classification 토픽 관련 단어 위주의 명사 감성단.. 더보기
WDM - Chapter 11. Opinion Mining - Sentiment Classification Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data (Data-Centric Systems and Applications) Opinion Mining 이라고 하면, 말 그대로 표현 하자면, 의견을 마이닝 하는 것인데, 이러한 의견들은 웹 상의 UGC (User Generated Contents), UGM (User Generated Media) 등으로 표출될 것입니다. 예를들어, 특정 product 에 대해서 positive 한 opinion을 나타내는 글에서는 new product 를 recommend할 수 있을 것이나 negative 한 경우는 내보내서는 안되겠지요. 물론 이러한 opinion을 추출하기 위해서는 그러한 의견을 가진 글(e.. 더보기
Opinion Mining을 활용한 미니 프로젝트 (1) Bing Liu 교수님의 Web Data Mining 책의 11장에서 소개되고 있는 Opinion Mining 에 대한 자그만한 프로젝트를 해볼까 합니다. 뭐 거창하게 시작하는 것도 우습고, 우선 경험적으로 프로토타이핑 정도로 시작하려고 합니다. 우선, 아래와 같은 일정으로 진행하면 어떨까 생각하고 있습니다. 범위 : 11.1 Sentiment Classification 목적 : 특정 페이지가 Evaluative document 인지를 구분하는 시스템 구현 기간 : 4/13(일) ~ 4/21(화) 상세일정 : Text summarization책에서 언급된 방법 들 분석 및 요약 Thesis survey and summarization3가지 기법 중에서 한 가지 선택선택한 기법의 원 논문 읽기 및 분석 S.. 더보기
확률분포 (1) 이번에는 '확률분포'라는 개념에 대한 내용인데요, 영어로는 Probability Distribution, 한글로 풀어쓴다고 해도 그다지 직관적이지는 못한 개념인 것 같습니다. 내 나름대로 생각하는 정의는 다음과 같습니다. 확률분포란? 세상의 모든 일(사건)이 일어나는 것에 대하여 수학적인 관점에서 보게된다면 확률로 표현할 수 있을 겁니다. 즉 동전을 던졌을 때에 앞면이 나올 확률 또는 성별이 남성이고 나이가 얼마일 때에 신장 또는 몸무게 등이 어느정도 구간에 있을 확률으로 말입니다. 즉, 이러한 사건이 얼마나 공평하게 발생하는지 또는 그렇지 못한 지에 대한 정보를 수치로 표현하는 것이라 생각합니다. 이러한 표현을 할 때에 몸무게, 신장 등과 같이 연속적인 자료의 경우에는 '연속형분포' 동전 던지기와 같이.. 더보기
엑셀 데이터베이스 기능과 해 찾기 이번 강좌에서는 아무래도 엑셀 중심적으로 진행되는 듯 하는군요, 엑셀에 생각보다 많은 기능들이 있습니다. 그리고 관련도구를 사용하면, 일반적인 통계정보는 쉽게 추출할 수도 있군요... 하지만, 언제 이러한 값들을 실무에서 얼마나 잘 사용할 수 있을지는 저도 잘 모르겠습니다. -_-;; 엑셀을 통한 데이터 분석법 - '데이터 분석' 메뉴 사용 '기술통계법'평균, 표준 오차, 중앙값, 최빈값, 표준 편차, 분산, 첨도, 왜도, 범위, 최소값, 최대값, 합, 관측수간단한 클릭 몇 번으로 파워풀한 기능을 그대로 사용할 수 있습니다. '히스토그램'계급과 빈도수에 따른 히스토그램을 표현할 수 있습니다.데이터의 분포도 편중되는 현상 등을 파악할 수 있습니다. '줄기-잎 그림' (stem-leaf plot)연속된 데이.. 더보기
데이터마이닝의 개요 (2) 지난번 포스팅에 이어 '데이터마이닝'의 연구분야 및 기법에 대한 내용입니다. 데이터마이닝의 연구분야 KDD, 기계학습, 패턴인식, 뉴로컴퓨팅, 통계학 데이터마이닝 활용분야 CRM, 신용평가, 품질개선, 부정행위 적발, 이미지 분석, 생명정보학 고객관계관리에서의 전략 목표마케팅 (target marketing) 고객 세분화 (segementation) 고객 이탈분석 (churn analysis) 교차분석 (cross analysis) 시장바구니 분석 (market basket analysis) 교차분석(Crosstabulation Analysis) 범주형 자료(명목척도)를 두 개 혹은 그 이상의 변수에 대한 결합분포(결합빈도)를 나타내는 분할표를 보여주는 것. 즉, 특정 속성에 대하여 집단별로 어떤 관련성.. 더보기
자녀교육을 위해 해야 할 20가지 YoonSAT 특강을 들으면서 괜찮은 말들을 정리해 보았습니다. 스스로의 자녀 교육에 대해서 한번 더 뒤돌아 보게하는 명강의 였습니다. 아래의 항목들 중에 적어도 한 가지만 선택하여 실천하라 이것 저것 모두 할려고 하는 것보다 하나씩 하나씩 실천하는 것이 더 중요하다 자녀가 뚜렷한 인생목표에 대해 대화한다 대화가 안된다고 미리 판단하지 말라자녀와의 유대관계를 형성한다 유대관계를 뚫어야 대화가 가능하다자녀와 장단점에 대해 대화한다 너는 ~는 정말 잘 하는 것 같아 나는 어떠냐?질책과 꾸중 보다는 칭찬과 믿음을 보여준다 진심으로 칭찬해주기, 한 번으로는 효과가 나지 않는다 자꾸 자꾸 해줘라 믿는다는 말 - 진심으로 표현하라 `힘들지` 보다는 `수고했다 남들도 다 겪는 과정이다`, `난 니가 하면 다 할 수 .. 더보기
데이터의 그래프표현과 수치요약 이번에는 통계에서 자주 사용되는 데이터 수치요약에 관한 강좌를 요약했습니다. 그리고 엑셀에서 자주 사용되는 함수 또는 기능을 위주로 작성되어 있습니다. 본 자료는 다른 강좌를 통하여 요약된 정보임을 밝힙니다. 문제가 될 소지가 있는 내용이 있다면, 언제든 삭제토록 하겠습니다. 엑셀의 참조방법 및 기본함수 엑셀의 셀 참조방법 상대참조: AVERAGE(C2:G2)절대참조: AVERAGE($C$2:G$2)혼합참조: AVERAGE($C2:G$2) 엑셀의 기본함수 STDEV (표준편차, Standard deviation)IF (Condition,True,False)Nested IF OK (7개까지 가능)데이터 종류에 따른 그래프의 표현 질적자료, 구성비 : 원그래프항목비교 : 가로막대시간적 추이, 도수분포 : 세.. 더보기
통계학의 기본개념 및 엑셀기초 참고서적 : 패턴인식계론 최근 통계학에 대한 공부가 필요함을 느끼고 강좌를 시간 날 때에 하나씩 듣고 있습니다. 통계학을 독학으로 공부하기에는 조금 버거운 것 같다는 생각도 듭니다. :-) 통계조사 복잡한 사회 또는 집단의 어떤 현상을 수량화하여 객관적이고, 구체적인 특징을 파악하는 과정을 말한다 통계학의 적용과정 문제설정조사 관측정리 요약 -> 정보추출통계적 추론 데이터의 유형 구분 Qualitative data명목척도/순서척도Discrete dataQuantitative data구간척도/비율척도Continuous data 일변량자료 한 개의 구분(변수)에 의해서 구분되는 자료 다변량자료 두 개 이상의 구분(변수)에 의해서 구분되는 자료 모집단이 특정 변량(구분)에 대해서 정규분포임은 어떻게 알 수 있.. 더보기
A Holistic Lexicon-Based Approach to Opinion Mining A Holistic Lexicon-Based Approach to Opinion Mining by Bing Liu Opinion mining 이라는 분야가 요즘 간간히 귀에 들리고 있는데, 저도 관심을 두고 공부하고 있습니다. 한국어로 뭐라 번역하기도 애매하고 해서 강좌의 제목을 그대로 올렸구요.. 일단, Bing Liu 라는 분이 쓴 Web data mining 이라는 책의 저자이신 분이니 좀 인지도 있으신 분인가 하는 생각이 들었습니다. 일단 동영상 강의도 들을 수 있고 물론 ppt 자료도 다운로드가 가능합니다. 간략하게 내용을 정리해 보려고 합니다. 구구절절 내용을 보기보다는 간단히 설명해보면, 우선 'Camera에 대한 Opinion mining을 한다' 라고 하면 해당 'Camera에 대한 긍정.. 더보기