본문 바로가기

데이터과학/data mining

데이터마이닝의 개요 (1)

지난 주에 우연히 데이터마이닝 관련 강좌를 하나 듣고 있습니다. 시간이 날 때마다 한 강좌씩 듣고 정리를 해보는 것도 좋겠다 싶어서 시작합니다.


데이터마이닝의 도입배경
통신, 보험, 금융권 에서의 고객을 이해, 관리를 위한 CRM으로 시작

데이터마이닝이란?
대용량의 데이터베이스로 부터, 의미있는 정보(관계, 패턴, 규칙 등)를 찾는 것

OLTP vs OLAP vs Data Mining
데이터베이스를 활용한 분야인데, 누구를 대상으로 한 것인지에 따라 조금씩 달라지는 것 같습니다.
이용자를 위한 어플리케이션 또는 절차가 OLTP (On-Line Transaction Processing)
관리자를 위한 것이 OLAP (On-Line Analytical Processing)
정책결정자를 위한 것이 Data Mining 이라고 저는 단순화 해서 이해하고 있습니다.

사용자 삽입 이미지

데이터마이닝 관련 학문분야


KDD (Knowledge Discovery in Database)
Data Mining과 거의 유사한 개념으로 이해하고 있었는데요, 좀 더 넓은 개념이라고 합니다.
1995년 열린 첫 번째 KDD국제 컨퍼런스에서 원시 데이터로부터 패턴이나 유사성을 발견하는 작업을 지칭하는 기존의 모든 용어들을 대체하여 KDD라는 용어를 사용하고 KDD과정에서의 발견단계에 한정해서 데이터마이닝이라는 용어를 사용 할 것이 제안되었다고 합니다.
출처: kzkz101 님의 블로그


데이터마이닝의 단계 (DELPA)

  1. Design : 어떠한 분야에서 어떤 정보를 마이닝 할 것인지?
  2. Exploration : 주제와 목적에 따른 데이터들의 특성을 탐색
  3. Layout : 히스토그램이나 기타 표현을 통하여 데이터의 특성을 Visualization
  4. Process : 필요에 따라 가공, 정제, 변형 하는 단계
  5. Analysis : 최종적인 분석 및 검증단계 (Data-Mining, Evaluation)

WEKA Explorer를 사용하면 E.L.P.단계가 한번에 해결되는군요, 하지만 단번에 해결되는 경우는 거의 없는 것 같습니다. 무엇보다도 한 사이클을 빨리 돌도록 만들고, 자동화하여 최대한 분석에 집중할 수 있는 프로세스를 만드는 것이 핵심인 것 같습니다.

데이터마이닝의 특성

  1. Observable redundant data
  2. Computer intensive method
  3. Adhockery method
  4. Generalization

역시 데이터마이닝은 사람의 직관에 많이 의존할 수 밖에 없는 학문인 것 같습니다. 무엇보다도 3번째 항목인 ad-hoc을 전제로 하고 있으니까요 그러니 4번항목인 일반화 또는 검증단계가 반드시 필요한 것 같습니다. 그래서 이 분야가 어려운 것 같기도 합니다.

흔히들 삽이라고 표현하시는 분들도 더러 있구요... 그래서 저는 오늘도 삽집중 입니다. :-)

'데이터과학 > data mining' 카테고리의 다른 글

THINK QUARTERLY  (0) 2011.08.19
Strata 2011: Hilary Mason, "What Data Tells Us"  (0) 2011.02.11
데이터마이닝의 개요 (2)  (0) 2008.03.25