4-5. Multinomial Distribution (*)

이항분포는 '성공'과 '실패'의 두 가지 속성만을 갖는 모집단을 대상으로 하지만, 다항분포는 세 가지 이상의 속성을 갖는 모집단에서 발생한다.

kk개의 속성이 존재하고, 각 속성의 비율이 p1,p2,...,pkp_1, p_2, ..., p_k 인 무한 모집단에서 nn 개의 표본을 추출할 경우, 각 속성의 갯수를 X1,X2,...,XkX_1, X_2, ..., X_k 라 하면, 다음과 같이 다항분포를 따른다.

MN(n,p1,p2,...,pk)MN(n, p_1, p_2, ..., p_k)

다항분포(Multinomial Distribution)

P(X1=x1,X2=x2,...Xk=xk)=n!(x1)!(x2)!...(xk)!p1x1p2x2...pkxkP(X_1 = x_1, X_2=x_2, ... X_k = x_k) = \frac{n!}{(x_1)!(x_2)!...(x_k)! } p_1 ^{x_1}p_2 ^{x_2}...p_k ^{x_k}

Where, Σi=1kpi=1,\Sigma_{i=1}^{k} p_i = 1, Σi=1kxi=n,\Sigma_{i=1}^{k} x_i = n, 0xin.0 \le x_i \le n.

n!(x1)!(x2)!...(xk)!\frac{n!}{(x_1)!(x_2)!...(x_k)! }nn 개의 표본 중 각각의 속성이 x1,x2,...,xkx_1, x_2, ..., x_k 개씩 나오는 경우의 수이며, p1x1p2x2...pkxkp_1 ^{x_1}p_2 ^{x_2}...p_k ^{x_k}특정 조합의 확률임을 알 수 있다.

다항분포의 특성 중 하나는 XiX_i 의 주변확률(marginal probability) 분포가 이항분포가 된다는 사실이다. 특정한 ii 번째 속성만을 '성공'으로 정하면 전체 모집단은 '성공'과 '실패'의 두 가지 속성으로 나눌 수 있기 때문이다. 따라서 XiX_i의 주변확률분포는 다음과 같다.

P(Xi=xi)=(nxi)pixi(1p)nxi,P(X_i =x_i) = \binom{n}{x_i} p_i^{x_i}(1-p)^{n-x_i}, xi=0,1,...,n.x_i = 0, 1, ..., n.

Expected Value and Variance of Multinomial Distribution

E(Xi)=npi,E(X_i) = np_i, Var(Xi)=npi(1pi).Var(X_i) = np_i(1-p_i).

EXAMPLE 13. 세 가지 속성을 갖는 아래의 세 모집단에서 각각 5개씩 표본을 취하였을 때, 다항 확률분포 그래프를 작성하고, 기대값 분산을 구하여 비교하시오.

  1. (p1,p2,p3)=(0.1,0.1,0.8)(p_1, p_2, p_3) = (0.1, 0.1, 0.8)

  2. (p1,p2,p3)=(0.1,0.5,0.4)(p_1, p_2, p_3) = (0.1, 0.5, 0.4)

  3. (p1,p2,p3)=(1/3,1/3,1/3)(p_1, p_2, p_3) = (1/3, 1/3, 1/3)

[ Solution ]

  1. E(X1)=5×0.1=0.5,E(X_1) = 5 \times 0.1 = 0.5, E(X2)=5×0.1=0.5,E(X_2) = 5 \times 0.1 = 0.5, E(X3)=5×0.8=0.4E(X_3) = 5 \times 0.8 = 0.4 Var(X1)=5×0.09=0.45,Var(X_1) = 5 \times 0.09=0.45, Var(X2)=5×0.09=0.45,Var(X_2) = 5 \times 0.09=0.45, Var(X3)=5×0.16=0.8Var(X_3) = 5 \times 0.16=0.8

  2. E(X1)=5×0.1=0.5,E(X_1) = 5 \times 0.1 = 0.5, E(X2)=5×0.5=2.5,E(X_2) = 5 \times 0.5 = 2.5, E(X3)=5×0.4=2E(X_3) = 5 \times 0.4 = 2 Var(X1)=5×0.09=0.45,Var(X_1) = 5 \times 0.09=0.45, Var(X2)=5×0.25=1.25,Var(X_2) = 5 \times 0.25=1.25, Var(X3)=5×0.24=1.2Var(X_3) = 5 \times 0.24=1.2

  3. E(X1)=5/3,E(X_1) = 5 / 3, E(X2)=5/3,E(X_2) = 5 / 3, E(X3)=5/3E(X_3) = 5 / 3 Var(X1)=Var(X2)=Var(X3)=5×(1/3)×(2/3)=10/91.111Var(X_1) = Var(X_2) = Var(X_3) = 5 \times (1/3) \times(2/3) = 10/9 \doteq 1.111

library(Rstat)

# pi, n, range of xi
p <- matrix(c(1, 1, 8, 1, 5, 4, 1, 1, 1), nrow=3, ncol=3, byrow=T)

# Packages : scatterplot3d
# install.packages("scatterplot3d")
library(scatterplot3d)

# multinorm.plot()
multinorm.plot(p, 5)

EXAMPLE 14. 어떤 프로세스에서 생산되는 제품의 품질이 A, B, C, D 등급으로 구분되며, 각 등급의 비율은 20%, 40%, 30%, 10%로 알려져 있다. 이 공정에서 20개의 제품을 샘플링하였을 때, 각 등급 제품의 수를 X1,X2,X3,X4X_1, X_2, X_3, X_4라 하자.

  1. 확률분포함수를 구하라.

  2. 기대값과 분산을 구하라.

  3. X1=3,X2=6,X3=8X_1 = 3, X_2=6, X_3 =8 이 나올 확률을 구하라.

  4. X1=3,X2=6X_1 = 3, X_2=6 이 나올 확률을 구하라.

  5. X1=3X_1 = 3 이 나올 확률을 구하라.

[ Solution ]

  1. f(x1,x2,x3,x4)=20!x1!x2!x3!x4!(0.2)x1(0.4)x2(0.3)x3(0.1)x4f(x_1, x_2, x_3, x_4) = \frac{20!}{x_1!x_2!x_3!x_4! } (0.2)^{x_1} (0.4) ^{x_2} (0.3) ^{x_3}(0.1) ^{x_4}

  2. E(X1)=20×0.2=4,E(X_1) = 20 \times 0.2 = 4, E(X2)=8,E(X_2) = 8, E(X3)=6,E(X_3) = 6, E(X4)=2E(X_4) = 2 Var(X1)=20×0.2×0.8=3.2,Var(X_1) = 20 \times 0.2 \times 0.8 = 3.2, Var(X2)=4.8,Var(X_2) = 4.8, Var(X3)=4.2,Var(X_3) = 4.2, Var(X4)=1.8Var(X_4) = 1.8

  3. X1=3,X2=6,X3=8X_1 = 3, X_2=6, X_3 =8 이면, X4=3.X_4 =3. f(3,6,8,3)=20!3!×6!×8!×3!(0.2)3(0.4)6(0.3)8(0.1)30.005f(3, 6, 8, 3) = \frac{20!}{3!\times6!\times8!\times3! } (0.2)^{3} (0.4) ^{6} (0.3) ^{8}(0.1) ^{3} \doteq 0.005

  4. X1=3,X2=6X_1 = 3, X_2=6 이면, 나머지 속성은 11. f(3,6,11)=20!3!×6!×11!(0.2)3(0.4)6(0.4)110.019f(3, 6, 11) = \frac{20!}{3!\times6!\times11! } (0.2)^{3} (0.4) ^{6} (0.4) ^{11} \doteq 0.019

  5. X1=3X_1 = 3이면, 나머지 속성은 17. f(3,17)=20!3!×17!(0.2)3(0.8)170.205f(3, 17) = \frac{20!}{3!\times17! } (0.2)^{3} (0.8) ^{17} \doteq 0.205

library(Rstat)

# pi, n, range of xi
p <- c(2, 4, 3, 1)
n <- 20

# 3. f(3, 6, 8, 3)
x <- c(3, 6, 8, 3)
dmultinom(x, size=n, prob=p)

# 4. f(3, 6, 11)
x <- c(3, 6, 11)
dmultinom(x, size=n, prob=c(2, 4, 4))

# 5. f(3, 17)
x <- c(3, 17)
dmultinom(x, size=n, prob=c(2,8))

Last updated