본문 바로가기

데이터과학/statistics

데이터의 그래프표현과 수치요약

이번에는 통계에서 자주 사용되는 데이터 수치요약에 관한 강좌를 요약했습니다.
그리고 엑셀에서 자주 사용되는 함수 또는 기능을 위주로 작성되어 있습니다.
본 자료는 다른 강좌를 통하여 요약된 정보임을 밝힙니다. 문제가 될 소지가 있는 내용이 있다면, 언제든 삭제토록 하겠습니다.

엑셀의 참조방법 및 기본함수
엑셀의 셀 참조방법
  • 상대참조: AVERAGE(C2:G2)
  • 절대참조: AVERAGE($C$2:G$2)
  • 혼합참조: AVERAGE($C2:G$2)
엑셀의 기본함수
  • STDEV (표준편차, Standard deviation)
  • IF (Condition,True,False)
  • Nested IF OK (7개까지 가능)
데이터 종류에 따른 그래프의 표현
  • 질적자료, 구성비 : 원그래프
  • 항목비교 : 가로막대
  • 시간적 추이, 도수분포 : 세로막대, 꺾은선
  • 연속된 자료 : 꺾은선
  • 상관성 : 가로막대, 산점도
데이터의 수치요약
통계적 수치를 통한 데이터 또는 분포상태를 수치로 표현하는 도구를 말하며, 그래프, 중심위치 척도, 산포 척도 등이 있다


중심위치 척도의 종류

평균 (mean, AVERAGE)
  • 주로 양적자료(연속적 자료)에 사용된다
  • 가장 많이 사용되는 중심위치를 나타내는 척도 중의 하나
알파%절사평균 (TRIMMEAN)
아주 크거나 작은 극단값에 영향을 받을 수 있으므로 상단 하단 알파%를 사용하지 않는 방법으로 체조점수 채점 시에 필요에 따라서 사용할 수도 있겠다

중앙값 (MEDIAN)
  • 홀수 : (n+1)/2 으로 사용
  • 짝수 : n/2 와 n/2+1번째 자료의 평균으로 사용
  • 아주 크거나 작은 극단값에 영향을 거의 받지 않는다는 특징이 있다
    • 예) 가구당 평균 소득
    • 편차가 큰 경우. 즉, 어느 한쪽으로 치우친 경우에 주로 사용된다
최빈값 (MODE)
  • 연속값, 질적자료에 모두 사용이 가능하나 주로 질적자료에 사용
  • 빈도가 가장 높은 값

산포척도의 종류

데이터의 분포, 퍼진정도를 나타내는 척도로써 분산, 표준편차 및 범위 등이 있다
분산 (variance, VAR)
  • 데이터를 중심으로 얼마나 퍼져있는지를 표현할 수 있다
표준편차 (standard deviation, STDEV)
  • 분산과 밀접한 관계가 있으며, 루트를 통해서 단위를 통일 시킬 수 있다
범위 (range = max - min)
  • 값이 가지는 범위, 이상점이 있는 경우 부적절하다
사분위수범위 (interqurtile range: IQR, QUARTILE)
  • IQR = Q3 - Q1 (사분위수의 범위 길이값)
  • 데이터의 순서대로 나열한 다음, Q1(25%), Q2(50%) Q3(75%) 을 결정
  • QUARTILE(Array, 0~4) : 0(Min), 4(Max)
  • QUARTILE(Array, 3) - QUARTILE(Array, 1) : 윗 사분위수에서 아랫 사분위수의 차
변동계수 (coefficient of variation: CV = STDEV / AVERAGE)
  • 평균이 크게 다른 집단의 산포정도를 비교할때에 평균이 커질 수 있다
  • 표준편차도 덩달아 커지는 현상이 발생하는데, 집단 간에 비교를 위한 정규화

산포척도 사용시 이상점에 주의
이상점 (양쪽 극단의 값, Outlier)의 경우 분산, 표준편차, 범위의 경우 많은 영향을 받을 수 있으므로 유의해야 하며, 반면에 IQR의 경우 가운데 위치의 50%만 사용하므로, 이상점의 영향을 적게 받는다

'데이터과학 > statistics' 카테고리의 다른 글

확률분포 (1)  (0) 2008.04.10
엑셀 데이터베이스 기능과 해 찾기  (0) 2008.04.01
통계학의 기본개념 및 엑셀기초  (0) 2008.03.20