본문 바로가기

데이터과학/statistics

통계학의 기본개념 및 엑셀기초

참고서적 : 패턴인식계론


최근 통계학에 대한 공부가 필요함을 느끼고 강좌를 시간 날 때에 하나씩 듣고 있습니다.
통계학을 독학으로 공부하기에는 조금 버거운 것 같다는 생각도 듭니다. :-)

통계조사
복잡한 사회 또는 집단의 어떤 현상을 수량화하여 객관적이고, 구체적인 특징을 파악하는 과정을 말한다

통계학의 적용과정
  1. 문제설정
  2. 조사 관측
  3. 정리 요약 -> 정보추출
  4. 통계적 추론

데이터의 유형 구분
  1. Qualitative data
    1. 명목척도/순서척도
    2. Discrete data
  2. Quantitative data
    1. 구간척도/비율척도
    2. Continuous data
일변량자료
한 개의 구분(변수)에 의해서 구분되는 자료

다변량자료
두 개 이상의 구분(변수)에 의해서 구분되는 자료

모집단이 특정 변량(구분)에 대해서 정규분포임은 어떻게 알 수 있을까?
  • 어떠한 집합이라도 많은 실험을 하게되면, 정규분포를 가지게 된다.
  • 정답집합은 제한적일 수 밖에 없으므로, 정규분포 가정은 항상 힘들게 된다.
  • 해당 샘플이 정규분포를 가지는지 비모수방법으로 규명하는 것도 방법중 하나이다
'정규분포를 따른다'라고 하는 것은 통계적으로 어떤 의미를 지닐까?
  • 평균에 가까운 샘플들이 종형을 이루면서 많아지는 모양을 가지는 분포
  • 평균을 중심으로 양방향으로 동일한 모양을 가진다
  • 표준편차의 값에 따라서 신뢰구간을 정할 수 있다

엑셀의 참조 연산자
  • 콜론 : (범위지정)
  • 콤마 , (합집합)
    • SUM(A1:A5, B1:B5) : A1~A5, B1~B5 모두를 합하는 결과
  • 공백 (교집합)
    • 두 개의 서로 다른 부분의 공통부분만 더하라
    • SUM(A1:A5 A3:A8) : A3~A5 의 합을 구하는 결과

 정규분포를 따른다는 가정을 하게되면, 생각보다 많은 부분이 단순화 될 수 있다. 이를테면, 기계학습을 할 때 학습집합의 갯수를 정할 때에도 얼마나 많은 학습집합을 만들게되면, 어느정도 이상의 신뢰도를 가질 수 있다고 말할 수 있기 때문이다. 즉 적절한 샘플링 또는 학습집합의 갯수를 정하는 데에 좋은 지표가 된다는 것이다. 하지만 해당 실험집합의 정규분포 여부를 확인할 수 있는 명확한 방법이 없기 때문에 막연한 방법들을 택할 수 밖에는 없다.

 일반적으로 알려진 정규분포의 예는 나이에 따른 남녀 평균신장, 대통령 선거 출구조사를 통한 예상 득표율 등의 경우를 들수가 있는데, 이러한 경우는 이미 한번 그러한 실험을 거치고 통계적인 사전정보가 있기 때문에 이러한 정규분포임을 알고 있는 경우이다.

 그렇다면, 그렇지 못한 경우의 실험은 어떻게 할 수 있을지, 그냥 정규분포를 가정하고 실험을 하는 방법 밖에는 없을까? 위에서 제시한 대로 비모수적 밀도 추정을 통하여 표본 데이터에 대한 밀도함수를 추정하는 방법을 선택할 수가 있다.

비모수적 밀도 추정
모수적 추정과 같이 밀도 함수의 분포형태를 미리 가정하고 '평균'과 '분산' 등의 모수를 추정하는 방법이 있는 반면에, 모수(즉, 파라메터)를 사용하지 않고 표본 데이터에 대한 밀도함수를 추정하는 방법을 말한다
  • 히스토그램
  • 커널 밀도 추정법(KDE)
    • Parzen 창에 의한 커널밀도추정법
    • 스무스 커널을 이용한 밀도 추정법
  • k-NNR을 이용한 밀도 추정

'데이터과학 > statistics' 카테고리의 다른 글

확률분포 (1)  (0) 2008.04.10
엑셀 데이터베이스 기능과 해 찾기  (0) 2008.04.01
데이터의 그래프표현과 수치요약  (0) 2008.03.23