지난 주에 우연히 데이터마이닝 관련 강좌를 하나 듣고 있습니다. 시간이 날 때마다 한 강좌씩 듣고 정리를 해보는 것도 좋겠다 싶어서 시작합니다.
데이터마이닝의 도입배경
통신, 보험, 금융권 에서의 고객을 이해, 관리를 위한 CRM으로 시작
데이터마이닝이란?
대용량의 데이터베이스로 부터, 의미있는 정보(관계, 패턴, 규칙 등)를 찾는 것
OLTP vs OLAP vs Data Mining
데이터베이스를 활용한 분야인데, 누구를 대상으로 한 것인지에 따라 조금씩 달라지는 것 같습니다.
이용자를 위한 어플리케이션 또는 절차가 OLTP (On-Line Transaction Processing)
관리자를 위한 것이 OLAP (On-Line Analytical Processing)
정책결정자를 위한 것이 Data Mining 이라고 저는 단순화 해서 이해하고 있습니다.
데이터마이닝 관련 학문분야
Data Mining과 거의 유사한 개념으로 이해하고 있었는데요, 좀 더 넓은 개념이라고 합니다.
1995년 열린 첫 번째 KDD국제 컨퍼런스에서 원시 데이터로부터 패턴이나 유사성을 발견하는 작업을 지칭하는 기존의 모든 용어들을 대체하여 KDD라는 용어를 사용하고 KDD과정에서의 발견단계에 한정해서 데이터마이닝이라는 용어를 사용 할 것이 제안되었다고 합니다.
출처: kzkz101 님의 블로그
데이터마이닝의 단계 (DELPA)
- Design : 어떠한 분야에서 어떤 정보를 마이닝 할 것인지?
- Exploration : 주제와 목적에 따른 데이터들의 특성을 탐색
- Layout : 히스토그램이나 기타 표현을 통하여 데이터의 특성을 Visualization
- Process : 필요에 따라 가공, 정제, 변형 하는 단계
- Analysis : 최종적인 분석 및 검증단계 (Data-Mining, Evaluation)
WEKA Explorer를 사용하면 E.L.P.단계가 한번에 해결되는군요, 하지만 단번에 해결되는 경우는 거의 없는 것 같습니다. 무엇보다도 한 사이클을 빨리 돌도록 만들고, 자동화하여 최대한 분석에 집중할 수 있는 프로세스를 만드는 것이 핵심인 것 같습니다.
데이터마이닝의 특성
- Observable redundant data
- Computer intensive method
- Adhockery method
- Generalization
역시 데이터마이닝은 사람의 직관에 많이 의존할 수 밖에 없는 학문인 것 같습니다. 무엇보다도 3번째 항목인 ad-hoc을 전제로 하고 있으니까요 그러니 4번항목인 일반화 또는 검증단계가 반드시 필요한 것 같습니다. 그래서 이 분야가 어려운 것 같기도 합니다.
흔히들 삽이라고 표현하시는 분들도 더러 있구요... 그래서 저는 오늘도 삽집중 입니다. :-)
'데이터과학 > data mining' 카테고리의 다른 글
THINK QUARTERLY (0) | 2011.08.19 |
---|---|
Strata 2011: Hilary Mason, "What Data Tells Us" (0) | 2011.02.11 |
데이터마이닝의 개요 (2) (0) | 2008.03.25 |