본문 바로가기

데이터과학/statistics

확률분포 (1)

이번에는 '확률분포'라는 개념에 대한 내용인데요, 영어로는 Probability Distribution, 한글로 풀어쓴다고 해도 그다지 직관적이지는 못한 개념인 것 같습니다. 내 나름대로 생각하는 정의는 다음과 같습니다.

확률분포란?
 세상의 모든 일(사건)이 일어나는 것에 대하여 수학적인 관점에서 보게된다면 확률로 표현할 수 있을 겁니다. 즉 동전을 던졌을 때에 앞면이 나올 확률 또는 성별이 남성이고 나이가 얼마일 때에 신장 또는 몸무게 등이 어느정도 구간에 있을 확률으로 말입니다.
 즉, 이러한 사건이 얼마나 공평하게 발생하는지 또는 그렇지 못한 지에 대한 정보를 수치로 표현하는 것이라 생각합니다.

 이러한 표현을 할 때에 몸무게, 신장 등과 같이 연속적인 자료의 경우에는 '연속형분포' 동전 던지기와 같이 비연속적인 자료의 경우는 '이산분포'라고 표현합니다. 이 이외에도 T-Square분포 등의 분포도 있습니다.

관련용어정리
  1. 확률 (probability)
    1. 아직 실현되지 않은 현상에 대하여 그 현상의 실현가능성의 정도를 0과 1사이의 숫자로 표현하는 것
  2. 원소 (element)
    1. 어떤 실험의 시행 결과로 나타날 수 있는 가능한 경우.
    2. 동전 던지기의 경우는 동전의 '앞'과 '뒤'
  3. 표본공간 (S, sample space)
    1. 원소들의 집합 ex_ S = { H, T }
  4. 사상 (event)
    1. 표본 공간 중에서 일정한 조건을 만족하는 원소들을 모은 집합
    2. 주사위 던지기에서 실험결과 짝수의 눈이 나오는 경우
    3. P(A) = lim(n_a/n) -> n_a: 사상 a가 일어나는 빈도수, n:전체 시행 횟수
확률변수의 종류
  1. 확률변수 (random variable)
    1. 표본공간에서 정의된 실수 함수
    2. 동전의 경우 'HTHH' 가 나온경우, 이렇게 앞면이 3번 나오는 경우를 함수의 형태로 표현하는 것, P(H=3)
  2. 이산형 확률변수 (discrete random variable)
    1. 동전을 던질때 앞면이 나올 횟수.
    2. 제품의 더미속에서 '불량품이 나오는 횟수'와같이 결과가 정수로 나오는 경우
  3. 연속형 확률변수 (continuous random variable)
    1. 사람의 키, 몸무게 등과 같이 구간에 포함되는 값들
확률분포의 종류
  1. 확률분포표
    1. 확률변수에 대해서 해당 확률을 대응시켜주는 관계를 확률분포표 또는 확률분포함수라 한다.
    2. 동전을 4번 던질 때에, 앞면이 나오는 횟수가 X라면, X가 나타나는 경우의 수는 ?
      1. 정답: { 1/16, 4/16, 6/16, 4/16, 1/16 }
  2. 이산확률
    1. 특정 이산점에서의 높이를 나타낸다.
    2. 확률질량함수, 0<=p(x)<=1, sigma(p(x)) = 1
  3. 연속확률
    1. 특정 구간의 넓이을 표현한다.
    2. 확률밀도함수, f(x)>=0, integral(f(x)) = 1
베르누이 시행과 이항분포
  1. 베르누이 시행
    1. '동전 던지기'와 같이 어떤 실험의 결과가 두 가지의 경우만 발생하는 경우.
  2. 베르누이 확률변수
    1. 두 가지 확률 값만을 나타내는 확률변수
      1. 각 시행의 결과는 '성공' 또는 '실패'로 표현된다
      2. 매 시행의 성공확률을 p=P(S)로 나타내면, q=1-P(S)=1-p, p+q=1
      3. 각 시행은 독립이다.
        1. Conditional Independence Assumption
      4. Mean = p, Variance = p*(1-p)
  3. 이항확률변수
    1. 이항분포를 따른다.
    2. 베르누이의 시행을 통하여 확률변수를 구하고, 그러한 확률분포를 이항분포를 따른다고 한다
    3. 동전 던지기, 주사위 던지기 등등
      1. 단, 주사위의 경우 1이 나오는 경우 나오지 않는 경우 등으로 표현하여야만 이항이 된다
  4. 이항확률분포
    1. X ~ B(n,p)
    2. 시행의 회수가 n이고, 성공확률이 p일 때
  5. 이항 분포함수
    1. p(x)
평균과 분산
  1. E(X) = np, Var(X) = np(1-p)
    1. 성공 p, 실패 1-p
    2. E(X) : n번 시도해서 x번 성공할 확률
  2. 분산이 크다?
    1. 자료가 많이 퍼져있다. 확률이 고루 분포되어 있다.
    2. 0.5 * 0.5 = 0.25
  3. 분산이 작다?
    1. 자료가 편중되어 있다. 확률이 고루 분포되지 않았다.
    2. 0.9 * 0.1 = 0.09

문제 1)
 4개의 동전을 던질 때 나타나는 앞면의 수를 확률변수 X~B(4, 0.5)가 되고 나타난 앞면의 수가 x일 때의 확률을 구하라.

정답 1)
 동전을 4회 던지는 경우의 수 : 2^4 = 16 이고, 동전의 앞면의 수가 x 인 경우의 수는 (4 choose x) 이므로, ( 4 choose x ) * 1/16 이 됩니다.

문제 2)
 N개의 카드를 일렬로 나열하는 경우의 수 ?

정답 2)
 N! 입니다. 처음에는 N개, 하나를 선택한 다음은 (N-1)개 ~ 1까지 곱한 수입니다.

문제 3)
 4 choose x ?

정답 3)
4 choose 4 => 1
4 choose 3 => 4 * 3 * 2 / 3 * 2 * 1 = 4
4 choose 2 => 4 * 3 / 2 * 1 = 6
4 choose 1 => 4 / 1 = 4
4 choose 0 => 1

 우선 4 choose 2 를 설명하자면, 1부터 4까지의 숫자가 적힌 카드 중에서 순서와는 관계없이 2개 뽑는 경우의 수를 말합니다. 우선, 1개를 선택하는 경우의 수는 4, 뽑고나서 남은 3개 중에서 하나를 선택하는 경우의 수는 3개 즉, 총 12가지의 경우의 수가 있습니다. 하지만 여기서 선택된 2개의 카드가 순서와 무관하게 되므로, 2개의 카드를 일렬로 나열하는 갯수만큼을 나누어 줍니다. 

왜 일렬로 나열한 갯수만큼 나누어주나?
위의 경우에서 카드의 순서와 무관하게 2장을 선택하는 경우의 수가 12가지라고 했는데, 이러한 카드를 나열해 보면, 결국 선택된 2장의 카드를 일렬로 나열하는 갯수와 동일하게 되고, 결국 2! 만큼 중복됨을 알 수 있습니다.

문제 4)
 어느 생산고정의 불량률이 5%라고 한다. 이 공정에서 임의로 10개를 추출하였을 때 이 중에 불량품이 3개 이상 포함될 확률을 구하라.

정답 4)
 3~10개가 불량일 확률을 말하며, 불량을 선택할 확률 0.05, P(X>=3) = 1 - P(X<=2)
P(X<=2) : 0, 1, 2 일 때의 확률의 합을 구하면 된다.
P(X=0) : 10개 모두가 정상일 확률 즉, 0.95 ^ 10
0~2일 때의 확률값을 매번 계산하기 어려우므로, 이항확률 분포표를 확인하면 된다.

P(x=0) : 0.95^10 * ( 10 choose 0) = 0.95^10 * 1
P(x=1) : 0.95^9 * ( 10 choose 1 ) = 0.95^9 * 10
P(x=2) : 0.95^8 * ( 10 choose 2 ) = 0.95^8 * 45

* 여기서 동전의 경우와 다른 점은, 동전의 경우는 이전 시행과 다음 시행이 독립시행이며, 확률이 변하지 않으나, 불량품 선택의 경우는 하나 뽑고 다시 넣고 하는 것이 아니라 10개를 추출하므로, 하나를 추출한 것이 그 다음의 시행에 영향을 미치는 조건부 확률이 되는 것에 유의하여야만 합니다.