메뉴
[Discrete RV] Cumulative Distribution Function (CDF)

2012. 2. 5. 02:32

정의

F_X(x) = P[X \leq x]

 
CDF를 그대로 해석하면 누적확률 분포함수가 된다.
다시 말해서 어떤 random variable X가 x이하일 확률을 나타내는 함수다. 
PMF와 마찬가지로 CDF역시 discrete RV가 나타내는 probability model을 완벽히 설명해 준다.



관련 정리 1

\\\begin{array}{ll}(a)&F_X(-\infty)=0~and~F_X(\infty)=1 \\(b)&For~all~x'\ge x, F_X(x')\ge F_X(x) \\(c)&For~x_i\in S_X~and~\epsilon, ~an ~arbitrarily~small~positive~number, \\ & F_X(x_i)-F_X(x_i-\epsilon)=P_X(x_i) \\(d)&F_X(x)=F_X(x_i)~for~all~x~such~that~x_i \leq x < x_{i+1}  \end{array}


(a)는 CDF가 0에서 시작해서 1에서 끝난다는 것을 나타내고 있다.
(b)를 보면 CDF는 항상 증가하는 함수 (단조 증가함수; increasing function)임을 알 수 있다.
한편 (c)에서는 특정 지점에서 값이 갑자기 변한다는 것을 알려주고 있다. (discontinuity)
다시 말해서 CDF의 그래프를 그리면 항상 계단형의 그래프가 나오게 되는 것이다.
x_i는 sample space에 포함되어있기 때문에 극히 작은 양의 숫자 ε만큼이 빠지게 되면,
함수값은 곧바로 그 바로 이전단계의 확률을 가리킨다. (계단 밑으로 떨어지는 셈)
PMF가 outcome에 해당하는 값들에서만 함수값을 가지는것과는 달리
CDF는 argument가 굳이 sample space에 속할 필요는 없다.
다시 말해서, 연속된 함수로 나타난다는 점이다. (다만 discontinuous point가 있을 뿐이다.)
이러한 내용을 (d)가 알려주고 있다. 



관련 정리 2

모든 b >= a 에 대해서 다음이 성립한다.

F_X(b)-F_X(a)=P[a<X\leq b]


이 정리를 증명하기 위해, 먼저 다음과 같이 event를 설정한다.

\\E_a = \{X \leq a\} \\E_b = \{X \leq b\} \\E_{ab} = \{a< X \leq b\}


이렇게 설정하면 우리는 E_b를 다음과 같이 쓸 수 있다. 

 \\E_b = \{X \leq b\}=\{X \leq a\} \cup \{a<X \leq b\} = E_a \cup E_{ab}


E_a와 E_ab는 서로 disjoint하므로 (교집합이 공집합임)

\\ P[E_b]=P[E_a]+P[E_{ab}] \\ F_X(b) = F_X(a)+P[a<X \leq b] \\\\ \therefore P[a<X \leq b] = F_X(b) - F_X(a)


위와 같이 증명되었다.