메뉴
[Pairs of RV] Joint Probability Density Function

2012. 2. 24. 02:59

정의

Continuous random variable X와 Y의 joint probability density function은 f_X,Y(x,y)로 표시하고
joint CDF와 다음과 같은 관계를 가진다.

F_{X,Y}(x,y) = \int_{-\infty}^{x} \int_{-\infty}^{y} f_{X,Y} (u,v) ~dv ~du

 
Single random variable X의 PDF가 단위길이에 대한 확률의 측정이라면,
두개의 random variable X와 Y의 PDF는 단위넓이에 대한 확률의 측정이라고 볼 수 있다.
PDF의 정의로 부터,

P[x<X \leq x+dx, y<Y \leq y+dy] = f_{X,Y}(x,y)~dx~dy


즉, 어떤 작은 dx, dy에 대해서 위 식이 성립하는 것이고,
이는 곧 joint CDF의 derivative가 joint PDF가 됨을 의미한다.


Joint PDF의 정의와 위 식은 곧, joint PDF와 joint CDF가
X, Y에 대한 동일한 확률 모델(equivalent probability model)에 대한 함수라는 것을 의미한다.
보통은 CDF로 event의 확률을 구하기가 간단하지 않다.
그래서 일반적으로 PDF를 이용해서 확률을 구하게 된다.
일단은 몇 가지 정리를 설명하고 나서 차근차근 확률을 구하는 방법에 대해 생각해 보도록 하자.



Probability of a Finite Rectangle

\begin{array}{rll}P[x_1 < X \leq x_2, y_1 < Y \leq y_2] &=& F_{X.Y} (x_2,y_2)-F_{X.Y} (x_2,y_1)\\&&-\,F_{X.Y} (x_1,y_2)+F_{X.Y} (x_1,y_1)\end{array}


앞서 CDF의 모양을 살펴봤듯이,
CDF는 특정 지점을 시작으로 각 variable마다 음의 무한대까지의 범위를 cover한다.
어떤 특정한 사각형 범위의 확률을 구하고자 하면 CDF를 적절히 잘 이용해야 하는데,
그냥 단순히 사각형의 양 끝 지점의 CDF값을 빼는 것으로는 올바른 확률을 구할 수가 없다.
(단순히 생각해 보아도, 모양이 사각형이 될 수 없다.)

위 식을 보면 x_2와 y_2가 각각 x_1과 y_1에 비해 큰 값을 갖는다는 것은,
좌표평면 상에서 (x_2, y_2)가 (x_1, y_1)에 비해 오른쪽 위에 있음을 뜻한다.
원하는 사각형 모양을 얻기 위해서는 (x_2, y_2)의 CDF에서 (x_1, y_2)과 (x_2, y_1)의 CDF를 각각 빼주면 되는데,
그렇게 되면 (x_1, y_1)의 CDF가 중복되어 빠져나가는 것이므로, (x_1, y_1)의 CDF를 다시 한번 더해주는 것이다.
집합에서 합집합을 구할 때, 교집합이 중복되어 한번 빼주는 것을 생각해 보면 되겠다.



Properties Corresponding to Axioms of Probability

f_X,Y(x,y)가 적절한 joint PDF가 되기 위해서는 다음의 조건을 만족해야 한다.


이는 이전에 다뤘던 Axioms of Probability의 연장이다.



Probability of an Event

Continuous RV (X, Y)에 대해서 event A의 확률은 다음과 같이 구한다.

P[A] = \iint_A f_{X,Y}(x,y)~dx~dy


즉, event A의 확률을 구하기 위해서는,
event A가 좌표평면상에서 차지하는 영역에 대해 적분을 해 주면 된다.
구하는 것 자체가 어려워 보이지 않지만, 복잡하게 설정되는 영역에 대해서
적분을 하는 것이 생각 외로 만만치 않게 느껴질 수도 있다.
예제를 살펴보자.




위와 같은 joint PDF를 가지는 random variable X, Y에 대해서,
P[A] = P[Y > X] 를 구하라.

먼저 A의 범위를 살펴보면,


검게 칠해진 부분이 A의 범위가 되고, 사각형 전체가 joint PDF의 범위다.
여기서 삼각형의 x, y의 범위를 나타내는
integral의 위끝 아래끝을 설정하는 부분은 calculus에서 다루는 내용이므로, 여기서는 자세히 다루지 않는다. 

\begin{array}{rll}P[A] &=& \iint_A f_{X,Y} (x,y) ~dA\\&=&\int_0^3 \left( \int_x^3 \right)dy~dx \\&=&\int_0^3 \frac{3-x}{15}~dx\\&=&\left[ -\frac{(3-x)^2}{30} \right]_0^3 = \frac{3}{10}\end{array}


확률은 위와 같이 구할 수 있다. 범위를 설정하는 문제는 사실 여기서 보다 다음 예제에서 더 어렵다.



Find Joint CDF from Joint PDF


어떤 random variable X, Y에 대해서 joint PDF가 다음과 같이 나타난다고 하자.


그래프의 형태는 위에서 보는것과 같다.
이 상태에서 CDF를 구하는 것은 간단해 보이지만 실상은 그렇지 않다.
먼저, CDF를 구하기 위해서는 integral을 계산해야 한다.
그런데 이 삼각형위의 어느 지점에서 CDF의 point를 잡느냐에 따라서, 그 함수식이 다 달라지게 된다.
(여기서 좌표평면상의 integral은 보통 x, y에 따라서 하게 되기 때문이기도 하다.)
결론적으로 여기서는 무려 다섯가지의 조건을 고려해야만 한다.


먼저 (a)는 x<0 이거나 y<0인 조건일때를 보여주고 있다.
삼각형과 겹치는 부분이 없으므로, 이 경우에는 CDF는 0이라고 보면 된다.

다음 (b)는 point가 삼각형 내부의 임의의 지점이 되었을 때를 보여주고 있다.
교차되는 부분은 검은색으로 음영이 되어 있는데, 사다리꼴의 형태를 하고 있다.
가로의 길이가 전 범위에 걸쳐 유동적이므로, x축에 대해서 먼저 적분을 하고, y에 대해 적분한다.

(c)를 살펴보면, y가 x보다 항상 큰 범위를 나타내고 있다.
즉 point가 삼각형 바로 위쪽의 임의의 지점일 때의 경우인데,
검은색 음영은 항상 삼각형 모양을 하게 된다. 당연히 (b)와 다른 적분식을 사용할 수 밖에 없다.

(d)는 point가 삼각형 오른쪽에 위치할 때를 나타낸다.
이 경우에는 (b)와 별다를 것이 없어보이지만,
x가 1이 넘어가더라도 x의 적분 구간이 1을 넘어갈 수 없다는 데서 (b)와 분명한 차이를 보인다.

마지막으로 위 그림에는 표현되지는 않지만 CDF의 범위가 모든 삼각형을 포함하는경우,
즉 (1,1)보다 오른쪽 위에 있게 되는 경우에는 따로 생각할 것 없이 CDF의 값은 1이다.

이렇게 5가지로 세분화된 구간에 대해서 우리는 적분식을 쓰고 그로 부터 각각 방정식을 얻어 정리해야 한다.
(엄밀히 말하면 적분식을 써야하는 것은 3가지, 즉 (b), (c), (d)의 경우다.)

\begin{array}{rl} (b)&F_{X,Y}(x,y)=\int_0^y \int_v^x 2~du~dv = 2xy-y^2 \\ (c)&F_{X,Y}(x,y)=\int_0^x \int_v^x 2~du~dv = x^2 \\ (d)&F_{X,Y}(x,y)=\int_0^y \int_v^1 2~du~dv = 2y-y^2  \end{array}


위와 같이 정리할 수 있는데, 각각의 적분식을 쓰는것은 calculus의 범위이므로 자세히 설명하지는 않겠다.
여기서는 적분의 정확한 값이 아니라, 어떤 식을 도출해내는 과정이므로,
최종적으로는 x,y에 관한 식을 얻어야하기 때문에, 
x, y 대신 u, v의 dummy variable을 이용해서 적분을 하는 모습을 볼 수 있다.
위에서 얻은 식을 바탕으로, CDF를 정리해보면,

F_{X,Y}(x,y)=\begin{cases} 0&x<0~or~y<0\\2xy-y^2&0\leq y \leq x \leq 1\\ x^2 & 0 \leq x < y,~ 0 \leq x \leq 1 \\ 2y-y^2 &0\leq y \leq 1, ~x>1 \\ 1 & x>1,~ y>1 \end{cases}


위와 같다. 상당히 복잡하지 않을 수 없다.
이러한 CDF는 2차원에서 나타내기가 어렵다. (등고선을 이용하는 방법은 가능하다.)
함수 값이 continuous한데다가, 함수 값을 갖는 것이 단순히 수직선 상이 아니라 좌표평면 위이기 때문이다.


실제 그래프의 모양은 위와 같다.