본문 바로가기

데이터마이닝

Mahout란 무엇에다 쓰는 물건인고? 저의 최대의 관심사는 현재는 데이터 마이닝을 통한 정보검색을 하는 것인데요, 가장 관심이 가는 아파치 프로젝트는 단연 마하우트(Mahout)입니다. Mahout? A Mahout is a person who drives an elephant (hint: Hadoop's logo is an elephant.) 즉, 코끼리를 다루는 사람이라는 의미입니다. 로고는 여기서 다운로드 받을 수 있는데요 로고를 잘 보시면, 코끼리를 타고 있는 사람이 보이실 겁니다. 물론 코끼리를 다루는 사람이라고 해서 하둡을 대상으로 보다 상위에 있는 프로젝트는 아니라고 얘기하고 있습니다. 제 개인적인 생각으로는 하둡위에서 보다 더 고차원적인(?) 일을 하는 사람이라는 생각이 살짝 들었습니다. ^^ 이리저리 사이트를 둘러보면서 정리.. 더보기
WDM - Chapter 11. Opinion Mining - Sentiment Classification Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data (Data-Centric Systems and Applications) Opinion Mining 이라고 하면, 말 그대로 표현 하자면, 의견을 마이닝 하는 것인데, 이러한 의견들은 웹 상의 UGC (User Generated Contents), UGM (User Generated Media) 등으로 표출될 것입니다. 예를들어, 특정 product 에 대해서 positive 한 opinion을 나타내는 글에서는 new product 를 recommend할 수 있을 것이나 negative 한 경우는 내보내서는 안되겠지요. 물론 이러한 opinion을 추출하기 위해서는 그러한 의견을 가진 글(e.. 더보기
Opinion Mining을 활용한 미니 프로젝트 (1) Bing Liu 교수님의 Web Data Mining 책의 11장에서 소개되고 있는 Opinion Mining 에 대한 자그만한 프로젝트를 해볼까 합니다. 뭐 거창하게 시작하는 것도 우습고, 우선 경험적으로 프로토타이핑 정도로 시작하려고 합니다. 우선, 아래와 같은 일정으로 진행하면 어떨까 생각하고 있습니다. 범위 : 11.1 Sentiment Classification 목적 : 특정 페이지가 Evaluative document 인지를 구분하는 시스템 구현 기간 : 4/13(일) ~ 4/21(화) 상세일정 : Text summarization책에서 언급된 방법 들 분석 및 요약 Thesis survey and summarization3가지 기법 중에서 한 가지 선택선택한 기법의 원 논문 읽기 및 분석 S.. 더보기
데이터마이닝의 개요 (2) 지난번 포스팅에 이어 '데이터마이닝'의 연구분야 및 기법에 대한 내용입니다. 데이터마이닝의 연구분야 KDD, 기계학습, 패턴인식, 뉴로컴퓨팅, 통계학 데이터마이닝 활용분야 CRM, 신용평가, 품질개선, 부정행위 적발, 이미지 분석, 생명정보학 고객관계관리에서의 전략 목표마케팅 (target marketing) 고객 세분화 (segementation) 고객 이탈분석 (churn analysis) 교차분석 (cross analysis) 시장바구니 분석 (market basket analysis) 교차분석(Crosstabulation Analysis) 범주형 자료(명목척도)를 두 개 혹은 그 이상의 변수에 대한 결합분포(결합빈도)를 나타내는 분할표를 보여주는 것. 즉, 특정 속성에 대하여 집단별로 어떤 관련성.. 더보기
A Holistic Lexicon-Based Approach to Opinion Mining A Holistic Lexicon-Based Approach to Opinion Mining by Bing Liu Opinion mining 이라는 분야가 요즘 간간히 귀에 들리고 있는데, 저도 관심을 두고 공부하고 있습니다. 한국어로 뭐라 번역하기도 애매하고 해서 강좌의 제목을 그대로 올렸구요.. 일단, Bing Liu 라는 분이 쓴 Web data mining 이라는 책의 저자이신 분이니 좀 인지도 있으신 분인가 하는 생각이 들었습니다. 일단 동영상 강의도 들을 수 있고 물론 ppt 자료도 다운로드가 가능합니다. 간략하게 내용을 정리해 보려고 합니다. 구구절절 내용을 보기보다는 간단히 설명해보면, 우선 'Camera에 대한 Opinion mining을 한다' 라고 하면 해당 'Camera에 대한 긍정.. 더보기
데이터마이닝의 개요 (1) 지난 주에 우연히 데이터마이닝 관련 강좌를 하나 듣고 있습니다. 시간이 날 때마다 한 강좌씩 듣고 정리를 해보는 것도 좋겠다 싶어서 시작합니다. 데이터마이닝의 도입배경 통신, 보험, 금융권 에서의 고객을 이해, 관리를 위한 CRM으로 시작 데이터마이닝이란? 대용량의 데이터베이스로 부터, 의미있는 정보(관계, 패턴, 규칙 등)를 찾는 것 OLTP vs OLAP vs Data Mining 데이터베이스를 활용한 분야인데, 누구를 대상으로 한 것인지에 따라 조금씩 달라지는 것 같습니다. 이용자를 위한 어플리케이션 또는 절차가 OLTP (On-Line Transaction Processing) 관리자를 위한 것이 OLAP (On-Line Analytical Processing) 정책결정자를 위한 것이 Data M.. 더보기
WEKA를 이용하여 데이터마이닝을 해보자 http://www.cs.waikato.ac.nz/ml/weka/ : WEKA Home http://www.amazon.com : Data Mining Practical Machine Learning Tools and Technieques http://sourceforge.net/projects/weka/ : 소스 및 실행파일 다운로드 데이터마이닝 이라고 하면, 너무 어렵고 뭘 해야 할지도 모르겠고, 그래서 일단 제일 만만한 툴킷을 찾아보던 중, 그나마 괜찮은 도구가 있는 것 같아 한번 시작해 보기로 했습니다. WEKA, for Waikato Environment for Knowledge Analysis 뉴질랜드의 와이카토 대학에서의 기계학습 기법을 이용한 데이터마이닝 프로젝트라고 간략히 설명되어 있구요.. 더보기