Expected Value

Random variable X와 Y에 대해 W = g(X, Y)의 expected value는 다음과 같이 구할 수 있다.

\begin{array}{ll} Discrete:& E[W] = \sum_{x \in S_X} \sum_{y \in S_Y} g(x,y) P_{X,Y}(x,y)\\ Continuous:& E[W] = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x,y) f_{X,Y}(x,y)~dx~dy \end{array}


W = g(X, Y)의 expected value를 구하기 위해서 joint PDF또는 joint PMF를 구하는 수고를 굳이 할 필요는 없다.
위의 정의를 이용하여 많은 응용이 가능하다.


Expected Value of Sum of Functions

E[g_1(X,Y)+\cdots+g_n(X,Y)] = E[g_1(X,Y)]+\cdots+E[g_n(X,Y)]


X, Y에 대한 여러가지 함수들이 덧셈 형태로 표현이 된다면,
한꺼번에 계산하는 것이 어려운 경우, 각각의 함수에 대해 expected value를 먼저 구해서 더해도 상관없다.
이것이 성립할 수 있는 것은 summation과 integral에 대해서 linearity가 성립하기 때문이다.
이러한 정리는 또 다음과 같은 정리를 얻을 수 있도록 한다.



Expected Value of Sum of Random Variables

어떤 random variable X, Y에 대해서 다음이 성립한다.

E[X+Y] = E[X] + E[Y]

Joint PDF나 joint PMF가 아닌 X, Y의 PDF와 PMF만으로도 expected value를 구할 수 있다.
하지만 variance는 조금 다르다.



Variance of Sum of Random Variables

Var[X+Y] = Var[X] + Var[Y] +2E[(X-\mu_X)(Y-\mu_Y)]


증명은 variance의 정의를 이용한다.

\begin{array}{rll} Var[X+Y] &=& E[(X+Y-(\mu_X + \mu_Y))^2] \\ &=& E[((X-\mu_X) +(Y- \mu_Y))^2]\\ &=& E[(X-\mu_X)^2 +2(X-\mu_X)(Y- \mu_Y)+(Y- \mu_Y)^2]\\ &=& E[(X-\mu_X)^2] +2E[(X-\mu_X)(Y- \mu_Y)]+E[(Y- \mu_Y)^2] \\ &=&Var[X] + Var[Y] + 2E[(X-\mu_X)(Y- \mu_Y)]\end{array}


여기서 등장한,


는 X 와 Y의 관계를 나타내는 중요한 property이다.



Covariance & Correlation

Covariance와 correlation은 두 개의 random variable에서 중요한 property인데, 
두 개의 random variable이 얼마나 밀접한 관계를 갖는지 파악하는데 쓰인다.
먼저 covariance와 correlation의 정의는,



Covariance

어떤 두 random variable X와 Y의 covariance는 다음과 같이 정의된다.

Cov[X,Y]=\sigma_{X,Y}=E[(X-\mu_X)(Y- \mu_Y)]


Correlation

어떤 두 random variable X와 Y의 correlation은 다음과 같이 정의된다.

r_{X,Y} = E[X,Y]




먼저 covariance와 correlation은 다음과 같은 유용한 관계식을 얻는데 쓰인다.

\begin{array}{rl}(a)& Cov[X,Y] = r_{X,Y} -\mu_X \mu_Y \\ (b)&Var[X+Y] = Var[X]+Var[Y]+2Cov[X,Y] \\ (c)& If~X=Y,~Cov[X,Y] = Var[X] = Var[Y]~and~r_{X,Y}=E[X^2]=E[Y^2]  \end{array}


각각의 식에 대한 증명은 expected value의 정의와 정리를 이용해서 할 수 있다.

\begin{array}{lrll}(a)& Cov[X,Y] &=&E[XY-\mu_X Y - \mu_Y X + \mu_X \mu_Y]\\ &&=& E[XY] - \mu_X E[Y] - \mu_Y E[X] + \mu_X \mu_Y \\&&=& r_{X,Y} -\mu_X \mu_Y\\\\(b)&Var[X+Y]&=&Var[X]+Var[Y]+2E[(X-\mu_X)(Y-\mu_Y)]\\&&=&Var[X]+Var[Y]+2Cov[X,Y]\\\\(c-1)&Cov[X,Y] &=& (1/2)(Var[X+Y]-Var[X]-Var[Y]) \\&&=& (1/2)(Var[2X]-Var[X]-Var[X]) \\ &&=& (1/2)(4Var[X]-Var[X]-Var[X]) \\ &&=& Var[X]\\\\(c-2)&r_{X,Y} &=& E[XX]=E[YY] \\&&=&E[X^2]=E[Y^2]\end{array}


이제 covariance와 correlation의 값에 따라서 random variable X, Y의 특성이 정의된다.



Orthogonal Random Variable

Random variable X, Y에 대해서 다음이 성립할 때, X, Y를 orthogonal random variable이라고 한다.

r_{X,Y}=0


Uncorrelated Random Variable

Random variable X, Y에 대해서 다음이 성립할 때, X, Y를 uncorrelated random variable이라고 한다.

Cov[X, Y] = 0



두 개의 개념이 약간은 혼란스러울 수 있는데,
orthogonal은 zero correlation을, uncorrelation은 zero covariance를 뜻하기 때문이다.

한편, 만약 X, Y가 어떤 단위를 가지고 있다면 covariance와 correlation은 각각 단위의 곱 형태로 나타난다.
예를 들어 X는 second이고 Y는 meter를 단위로 갖고 있다면,
covariance와 correlation은 second-meter의 단위가 되는 셈이다.



Correlation Coefficient

\rho_{X,Y} = \frac{Cov[X,Y]}{\sqrt{Var[X]Var[Y]}} = \frac{Cov[X,Y]}{\sigma_X \sigma_Y}


어떤 두 random variable X, Y의 correlation coefficient는 위와 같이 정의된다.
Covariance와 correlation이 단위를 갖는 반면, correlation coefficient는 단위가 없는 수치다.

또 다른 correlation coefficient의 성질이라면, 그 값이 -1에서 1 사이에만 존재한다는 것이다.
Correlation coefficient는 두 random variable이 어떠한 상관관계를 갖는지를 나타낸다.
두 random variable이 비례관계에 가까울 수록, correlation coefficient의 값은 1에 가까워진다.
한편 음의 비례 관계에 가까울 수록, -1에 가까워진다. 별 관계가 없으면 0에 가까워진다. 
여기서의 음의 비례관계란 '반비례'와는 전혀 다른 의미로,
하나의 random variable이 증가하면 다른 하나는 비례하여 감소하는 것을 의미한다.
기울기가 -1인 직선을 생각해 보면 된다. 반비례 곡선은 그런 형태가 아니다.
이런 비례관계 이외에 어떤 2차곡선, 3차곡선 등등에 대한 정보는 갖고 있지 않다.

즉, 이를 식으로 쓰면, 다음과 같이 정리할 수 있다.
Y = aX + b를 만족하는 random variable X, Y에 대해 다음이 성립한다.

\rho_{X,Y}=\begin{cases} -1 & a<0 \\ 0 & a=0 \\ 1 & a>0 \end{cases}


이에 대한 증명은 다음과 같다.

\\ Since~E[Y] = aE[X] +b ~and~Var[Y] = a^2 Var[X], \\ \rho_{X,Y}=\frac{Cov[X,Y]}{\sqrt{Var[X]}\sqrt{Var[Y]}} = \frac{aVar[X]}{\sqrt{Var[X]}\sqrt{a^2Var[X]}}=\frac{a}{/a/}


한편, correlation coefficient의 범위가 -1에서 1까지인 이유는 다음과 같이 증명된다.
먼저 W = X - aY라고 놓는다.

\\\begin{array}{rll} Var[W]&=&E\left[ (X-aY)^2 \right]- (E[X-aY])^2\\ &=&E\left[ X^2 - 2aXY + a^2Y^2 \right]-\left( E[X]^2 - 2aE[X]E[Y] + a^2E[Y]^2 \right) \\ &=& Var[X] - 2aCov[X,Y] + a^2Var[Y]\end{array} \\\\ Since~ Var[W] \ge 0 ~for ~any~a,  \\ 2aCov[X,Y] \leq Var[X] + a^2Var[Y] \\\\ If ~we ~choose ~a = \sigma_X / \sigma_Y,~ Cov[X,Y] \leq \sigma_X\sigma_Y \\ And ~if ~we ~choose ~a = -\sigma_X / \sigma_Y,~ Cov[X,Y] \ge -\sigma_X\sigma_Y


a를 어떻게 선택하느냐에 따라서 범위가 결정되는데, 각각이 1과 -1을 의미한다.
그런데 a를 어떻게 선택하느냐에 따라서 -1~1의 범위 이외의 숫자가 나올 수도 있지 않나를 생각할 수 있는데,
여기서의 a는 단지 범위의 끝점을 보여주기 위할 뿐이고,
위의 식은 곧 Cauchy-Schwarz Inequality를 함의하고 있는 것이므로 그것은 불가능하다.
즉,

\\ Let,~ Z = X - \frac{{Cov}(X,Y)}{{Var}(Y)} Y\\\\ \begin{array}{rll} 0 \le {Var}(Z) & =& {Cov}\left(X - \frac{{Cov}(X,Y)}{{Var}(Y)} Y,X - \frac{{Cov}(X,Y)}{{Var}(Y)} Y \right) \\&=& {Var}(X) - \frac{ ({Cov}(X,Y))^2 }{{Var}(Y)} \end{array} \\\\ Then,~ /{Cov}(X,Y)/ \le \sqrt{{Var}(X) {Var}(Y)}


위와 같이 보일 수 있다.

Posted by Nicatio

댓글을 달아 주세요