이항분포는 '성공'과 '실패'의 두 가지 속성만을 갖는 모집단을 대상으로 하지만, 다항분포는 세 가지 이상의 속성을 갖는 모집단에서 발생한다.
k k k 개의 속성이 존재하고, 각 속성의 비율이 p 1 , p 2 , . . . , p k p_1, p_2, ..., p_k p 1 , p 2 , ... , p k 인 무한 모집단에서 n n n 개의 표본을 추출할 경우, 각 속성의 갯수를 X 1 , X 2 , . . . , X k X_1, X_2, ..., X_k X 1 , X 2 , ... , X k 라 하면, 다음과 같이 다항분포를 따른다.
M N ( n , p 1 , p 2 , . . . , p k ) MN(n, p_1, p_2, ..., p_k) MN ( n , p 1 , p 2 , ... , p k )
다항분포(Multinomial Distribution)
P ( X 1 = x 1 , X 2 = x 2 , . . . X k = x k ) = n ! ( x 1 ) ! ( x 2 ) ! . . . ( x k ) ! p 1 x 1 p 2 x 2 . . . p k x k P(X_1 = x_1, X_2=x_2, ... X_k = x_k) = \frac{n!}{(x_1)!(x_2)!...(x_k)! } p_1 ^{x_1}p_2 ^{x_2}...p_k ^{x_k} P ( X 1 = x 1 , X 2 = x 2 , ... X k = x k ) = ( x 1 )! ( x 2 )! ... ( x k )! n ! p 1 x 1 p 2 x 2 ... p k x k
Where, Σ i = 1 k p i = 1 , \Sigma_{i=1}^{k} p_i = 1, Σ i = 1 k p i = 1 , Σ i = 1 k x i = n , \Sigma_{i=1}^{k} x_i = n, Σ i = 1 k x i = n , 0 ≤ x i ≤ n . 0 \le x_i \le n. 0 ≤ x i ≤ n .
n ! ( x 1 ) ! ( x 2 ) ! . . . ( x k ) ! \frac{n!}{(x_1)!(x_2)!...(x_k)! } ( x 1 )! ( x 2 )! ... ( x k )! n ! 는 n n n 개의 표본 중 각각의 속성이 x 1 , x 2 , . . . , x k x_1, x_2, ..., x_k x 1 , x 2 , ... , x k 개씩 나오는 경우의 수 이며, p 1 x 1 p 2 x 2 . . . p k x k p_1 ^{x_1}p_2 ^{x_2}...p_k ^{x_k} p 1 x 1 p 2 x 2 ... p k x k 는 특정 조합의 확률 임을 알 수 있다.
다항분포의 특성 중 하나는 X i X_i X i 의 주변확률(marginal probability) 분포가 이항분포가 된다는 사실이다. 특정한 i i i 번째 속성만을 '성공'으로 정하면 전체 모집단은 '성공'과 '실패'의 두 가지 속성으로 나눌 수 있기 때문이다. 따라서 X i X_i X i 의 주변확률분포 는 다음과 같다.
P ( X i = x i ) = ( n x i ) p i x i ( 1 − p ) n − x i , P(X_i =x_i) = \binom{n}{x_i} p_i^{x_i}(1-p)^{n-x_i}, P ( X i = x i ) = ( x i n ) p i x i ( 1 − p ) n − x i , x i = 0 , 1 , . . . , n . x_i = 0, 1, ..., n. x i = 0 , 1 , ... , n .
Expected Value and Variance of Multinomial Distribution
E ( X i ) = n p i , E(X_i) = np_i, E ( X i ) = n p i , V a r ( X i ) = n p i ( 1 − p i ) . Var(X_i) = np_i(1-p_i). Va r ( X i ) = n p i ( 1 − p i ) .
EXAMPLE 13. 세 가지 속성을 갖는 아래의 세 모집단에서 각각 5개씩 표본을 취하였을 때, 다항 확률분포 그래프를 작성하고, 기대값 분산을 구하여 비교하시오.
( p 1 , p 2 , p 3 ) = ( 0.1 , 0.1 , 0.8 ) (p_1, p_2, p_3) = (0.1, 0.1, 0.8) ( p 1 , p 2 , p 3 ) = ( 0.1 , 0.1 , 0.8 )
( p 1 , p 2 , p 3 ) = ( 0.1 , 0.5 , 0.4 ) (p_1, p_2, p_3) = (0.1, 0.5, 0.4) ( p 1 , p 2 , p 3 ) = ( 0.1 , 0.5 , 0.4 )
( p 1 , p 2 , p 3 ) = ( 1 / 3 , 1 / 3 , 1 / 3 ) (p_1, p_2, p_3) = (1/3, 1/3, 1/3) ( p 1 , p 2 , p 3 ) = ( 1/3 , 1/3 , 1/3 )
[ Solution ]
E ( X 1 ) = 5 × 0.1 = 0.5 , E(X_1) = 5 \times 0.1 = 0.5, E ( X 1 ) = 5 × 0.1 = 0.5 , E ( X 2 ) = 5 × 0.1 = 0.5 , E(X_2) = 5 \times 0.1 = 0.5, E ( X 2 ) = 5 × 0.1 = 0.5 , E ( X 3 ) = 5 × 0.8 = 0.4 E(X_3) = 5 \times 0.8 = 0.4 E ( X 3 ) = 5 × 0.8 = 0.4
V a r ( X 1 ) = 5 × 0.09 = 0.45 , Var(X_1) = 5 \times 0.09=0.45, Va r ( X 1 ) = 5 × 0.09 = 0.45 , V a r ( X 2 ) = 5 × 0.09 = 0.45 , Var(X_2) = 5 \times 0.09=0.45, Va r ( X 2 ) = 5 × 0.09 = 0.45 ,
V a r ( X 3 ) = 5 × 0.16 = 0.8 Var(X_3) = 5 \times 0.16=0.8 Va r ( X 3 ) = 5 × 0.16 = 0.8
E ( X 1 ) = 5 × 0.1 = 0.5 , E(X_1) = 5 \times 0.1 = 0.5, E ( X 1 ) = 5 × 0.1 = 0.5 , E ( X 2 ) = 5 × 0.5 = 2.5 , E(X_2) = 5 \times 0.5 = 2.5, E ( X 2 ) = 5 × 0.5 = 2.5 , E ( X 3 ) = 5 × 0.4 = 2 E(X_3) = 5 \times 0.4 = 2 E ( X 3 ) = 5 × 0.4 = 2
V a r ( X 1 ) = 5 × 0.09 = 0.45 , Var(X_1) = 5 \times 0.09=0.45, Va r ( X 1 ) = 5 × 0.09 = 0.45 , V a r ( X 2 ) = 5 × 0.25 = 1.25 , Var(X_2) = 5 \times 0.25=1.25, Va r ( X 2 ) = 5 × 0.25 = 1.25 ,
V a r ( X 3 ) = 5 × 0.24 = 1.2 Var(X_3) = 5 \times 0.24=1.2 Va r ( X 3 ) = 5 × 0.24 = 1.2
E ( X 1 ) = 5 / 3 , E(X_1) = 5 / 3, E ( X 1 ) = 5/3 , E ( X 2 ) = 5 / 3 , E(X_2) = 5 / 3, E ( X 2 ) = 5/3 , E ( X 3 ) = 5 / 3 E(X_3) = 5 / 3 E ( X 3 ) = 5/3
V a r ( X 1 ) = V a r ( X 2 ) = V a r ( X 3 ) = 5 × ( 1 / 3 ) × ( 2 / 3 ) = 10 / 9 ≐ 1.111 Var(X_1) = Var(X_2) = Var(X_3) = 5 \times (1/3) \times(2/3) = 10/9 \doteq 1.111 Va r ( X 1 ) = Va r ( X 2 ) = Va r ( X 3 ) = 5 × ( 1/3 ) × ( 2/3 ) = 10/9 ≐ 1.111
R Source Plot
Copy library(Rstat)
# pi, n, range of xi
p <- matrix(c(1, 1, 8, 1, 5, 4, 1, 1, 1), nrow=3, ncol=3, byrow=T)
# Packages : scatterplot3d
# install.packages("scatterplot3d")
library(scatterplot3d)
# multinorm.plot()
multinorm.plot(p, 5)
EXAMPLE 14. 어떤 프로세스에서 생산되는 제품의 품질이 A, B, C, D 등급으로 구분되며, 각 등급의 비율은 20%, 40%, 30%, 10%로 알려져 있다. 이 공정에서 20개의 제품을 샘플링하였을 때, 각 등급 제품의 수를 X 1 , X 2 , X 3 , X 4 X_1, X_2, X_3, X_4 X 1 , X 2 , X 3 , X 4 라 하자.
X 1 = 3 , X 2 = 6 , X 3 = 8 X_1 = 3, X_2=6, X_3 =8 X 1 = 3 , X 2 = 6 , X 3 = 8 이 나올 확률을 구하라.
X 1 = 3 , X 2 = 6 X_1 = 3, X_2=6 X 1 = 3 , X 2 = 6 이 나올 확률을 구하라.
X 1 = 3 X_1 = 3 X 1 = 3 이 나올 확률을 구하라.
[ Solution ]
f ( x 1 , x 2 , x 3 , x 4 ) = 20 ! x 1 ! x 2 ! x 3 ! x 4 ! ( 0.2 ) x 1 ( 0.4 ) x 2 ( 0.3 ) x 3 ( 0.1 ) x 4 f(x_1, x_2, x_3, x_4) = \frac{20!}{x_1!x_2!x_3!x_4! } (0.2)^{x_1} (0.4) ^{x_2} (0.3) ^{x_3}(0.1) ^{x_4} f ( x 1 , x 2 , x 3 , x 4 ) = x 1 ! x 2 ! x 3 ! x 4 ! 20 ! ( 0.2 ) x 1 ( 0.4 ) x 2 ( 0.3 ) x 3 ( 0.1 ) x 4
E ( X 1 ) = 20 × 0.2 = 4 , E(X_1) = 20 \times 0.2 = 4, E ( X 1 ) = 20 × 0.2 = 4 , E ( X 2 ) = 8 , E(X_2) = 8, E ( X 2 ) = 8 , E ( X 3 ) = 6 , E(X_3) = 6, E ( X 3 ) = 6 , E ( X 4 ) = 2 E(X_4) = 2 E ( X 4 ) = 2
V a r ( X 1 ) = 20 × 0.2 × 0.8 = 3.2 , Var(X_1) = 20 \times 0.2 \times 0.8 = 3.2, Va r ( X 1 ) = 20 × 0.2 × 0.8 = 3.2 , V a r ( X 2 ) = 4.8 , Var(X_2) = 4.8, Va r ( X 2 ) = 4.8 , V a r ( X 3 ) = 4.2 , Var(X_3) = 4.2, Va r ( X 3 ) = 4.2 , V a r ( X 4 ) = 1.8 Var(X_4) = 1.8 Va r ( X 4 ) = 1.8
X 1 = 3 , X 2 = 6 , X 3 = 8 X_1 = 3, X_2=6, X_3 =8 X 1 = 3 , X 2 = 6 , X 3 = 8 이면, X 4 = 3. X_4 =3. X 4 = 3.
f ( 3 , 6 , 8 , 3 ) = 20 ! 3 ! × 6 ! × 8 ! × 3 ! ( 0.2 ) 3 ( 0.4 ) 6 ( 0.3 ) 8 ( 0.1 ) 3 ≐ 0.005 f(3, 6, 8, 3) = \frac{20!}{3!\times6!\times8!\times3! } (0.2)^{3} (0.4) ^{6} (0.3) ^{8}(0.1) ^{3} \doteq 0.005 f ( 3 , 6 , 8 , 3 ) = 3 ! × 6 ! × 8 ! × 3 ! 20 ! ( 0.2 ) 3 ( 0.4 ) 6 ( 0.3 ) 8 ( 0.1 ) 3 ≐ 0.005
X 1 = 3 , X 2 = 6 X_1 = 3, X_2=6 X 1 = 3 , X 2 = 6 이면, 나머지 속성은 11.
f ( 3 , 6 , 11 ) = 20 ! 3 ! × 6 ! × 11 ! ( 0.2 ) 3 ( 0.4 ) 6 ( 0.4 ) 11 ≐ 0.019 f(3, 6, 11) = \frac{20!}{3!\times6!\times11! } (0.2)^{3} (0.4) ^{6} (0.4) ^{11} \doteq 0.019 f ( 3 , 6 , 11 ) = 3 ! × 6 ! × 11 ! 20 ! ( 0.2 ) 3 ( 0.4 ) 6 ( 0.4 ) 11 ≐ 0.019
X 1 = 3 X_1 = 3 X 1 = 3 이면, 나머지 속성은 17.
f ( 3 , 17 ) = 20 ! 3 ! × 17 ! ( 0.2 ) 3 ( 0.8 ) 17 ≐ 0.205 f(3, 17) = \frac{20!}{3!\times17! } (0.2)^{3} (0.8) ^{17} \doteq 0.205 f ( 3 , 17 ) = 3 ! × 17 ! 20 ! ( 0.2 ) 3 ( 0.8 ) 17 ≐ 0.205
R Source 3. 4. 5.
Copy library(Rstat)
# pi, n, range of xi
p <- c(2, 4, 3, 1)
n <- 20
# 3. f(3, 6, 8, 3)
x <- c(3, 6, 8, 3)
dmultinom(x, size=n, prob=p)
# 4. f(3, 6, 11)
x <- c(3, 6, 11)
dmultinom(x, size=n, prob=c(2, 4, 4))
# 5. f(3, 17)
x <- c(3, 17)
dmultinom(x, size=n, prob=c(2,8))
Copy > # 3. f(3, 6, 8, 3)
> x <- c(3, 6, 8, 3)
> dmultinom(x, size=n, prob=p)
## [1] 0.005004827
Copy > # 4. f(3, 6, 11)
> x <- c(3, 6, 11)
> dmultinom(x, size=n, prob=c(2, 4, 4))
## [1] 0.01939077
Copy > # 5. f(3, 17)
> x <- c(3, 17)
> dmultinom(x, size=n, prob=c(2,8))
## [1] 0.2053641