포아송 분포의 포아송은 17세기의 프랑스의 수학자인 S.D.Poisson 의 이름으로서, S.D. Poisson 은 이항확률을 손으로 계산하는 것이 매우 어렸었던 점을 개선하고자 지수식을 사용해서 이항확률의 근사값을 계산할 수 있는 확률 함수를 만들었는데요, 그것이 바로 포아송 분포이다.
확률변수 X가 이항분포 B(n,p)를 따를 때 np=λ 로 일정하게 두고, n이 충분히 크고 p가 0에 가까울 때 이항분포에 근사하는 포아송 분포 (Poisson distribution)는 아래와 같다.
포아송 분포(Poisson distribution)는 일정한 단위 시간, 단위 공간에서 어떤 사건이 랜덤하게 발생하는 경우에 사용할 수 있는 이산형 확률분포이다.
예를 들어, 1시간 동안 은행에 방문하는 고객의 수, 1시간 동안 콜센터로 걸려오는 전화의 수, 1달 동안 경부고속도로에서 교통사고가 발생하는 건수, 1년 동안 비행기가 사고가 발생하는 건수, 책 1페이지당 오탈자가 발생하는 건수, 반도체 웨이퍼 25장 당 불량 건수 등과 같이 단위 시간 혹은 단위 공간에서의 랜덤한 사건에 대해 사용하게 된다.
(참고로, 연속형 확률 분포 중 지수 분포(exponential distribution)는 특정 사건과 사건 사이의 간격에 대한 분포로서, 헷갈리지 않도록 주의가 필요하다.)
포아송 분포에서 모수 λ(lambda 라고 발음함)는 일정한 단위 시간 또는 단위 공간에서 랜덤하게 발생하는 사건의 평균 횟수를 의미한다.
EXAMPLE 32. 일정 단위당 평균 발생횟수가 각각 2개, 5개, 8개인 세 종류의 무한 모집단에서 일정 단위의 표본을 취하였을 때, 포아송 확률분포 그래프를 작성하고, 기대값과 분산값을 구하라.
[ Solution ]
Using Rstat Pacakge : dpois()
library(Rstat)
# 1. mean value : L
L <- c(2, 5, 8); x <- 0:30
# 2. Probability Distribution : dpois(x, L)
fx <- list()
for (i in 1:3) fx[[i]] <- dpois(x, L[[i]])
sapply(fx, sum)
# 3. E(X), Var(X), and Plot using disc.mexp()
title <- paste0("Poisson(", L,")")
disc.mexp(x, fx, mt = title)
EXAMPLE 33. 어느 은행의 1시간 당 방문 고객 수가 λ = 20 인 포아송 분포를 따른다고 한다. 그럼 1시간 당 방문고객수가 15명일 확률은?
# (2) P(X = 15) in Poisson distribution with lambda = 20
dpois(x=15, lambda = 20)
> dpois(x=15, lambda = 20)
## [1] 0.05164885
(3) P ( X <= 15) 확률 계산 : ppois(q, lambda, lower.tail = TRUE)
EXAMPLE 34. 어느 은행의 1시간 당 방문 고객 수가 λ = 20 인 포아송 분포를 따른다고 한다. 그럼 1시간 당 방문고객수가 15명 이하일 확률은?
# (3) P(X =< 15) in Poisson distribution with lambda = 20
ppois(q=15, lambda = 20, lower.tail = TRUE)
# or
sum(dpois(x=c(0:15), lambda = 20)) # the same result with the ppois()
> # (3) P(X =< 15) in Poisson distribution with lambda = 20
> ppois(q=15, lambda = 20, lower.tail = TRUE)
## [1] 0.1565131
>
> # or
> sum(dpois(x=c(0:15), lambda = 20)) # the same result with the ppois()
## [1] 0.1565131
(4) 특정 확률 값에 해당하는 분위수 계산 : qpois(p, lambda, lower.tail=TRUE)
EXAMPLE 35. 어느 은행의 1시간 당 방문 고객 수가 λ = 20 인 포아송 분포를 따른다고 한다. 만약 1시간 동안 방문한 고객수에 해당하는 확률이 15.65131% 이라면 이는 몇 명에 해당하는가?