메뉴
[Discrete RV] Random Variable

2012. 2. 4. 00:16

시작

이전의 포스트가 단지 어떤 확률모델에 대한 정의들이었다면
여기서는, 나아가서는 이 이후의 대부분의 내용은 어떠한 experiment에 대한 observation인
random variable(확률 변수)에 대한 내용으로 채워질 것이다.

본격적으로 시작하기 전에,
제목에는 random variable을 RV로 축약해서 사용할 예정이고, 
앞에 붙은 discrete의 의미는 아래에서 차차 설명하도록 하겠다.

먼저 확률 변수의 정의를 살펴보자.




정의

Random variable은 어떤 sample space S에 대하여 probability measure P[·]가 정의된 experiment와
sample space에 속한 각각의 outcome에 대해서 어떠한 실수가 대응된 함수로 이루어진 것이다.


Random variable은 결국 experiment통해 얻은 결과일 뿐 아니라, observation 그 자체일수도 있고,
각각의 outcome에 대해서 특별한 숫자, 단어, 표시 등등에 대응시킨 것일 수도 있다.

설명을 하는 사람의 입장에서도 설명이 잘 와닿지 않을 것 같아 역시 몇 가지 예제를 들어주는 것이 좋을 것 같다.



예제

1. Random variable은 observation이다.

고속도로 톨게이트에 한 시간동안 차량이 몇 대 지나는지를 observe(관측)하는 experiment를 했다고 하자.
여기서 observation을 통해 얻은 결과를 곧바로 random variable X로 만들 수 있다.
차량은 한대도 지나가지 않을 수 있으며, 1대, 혹은 100대, 혹은 100만대가 될 수도 있다.
즉, random variable X가 가질수 있는 값의 범위는 0을 포함한 자연수가 될 수 있다.
말 그대로 random한 변수이기 때문에, 어떤 값으로 특정지을 수 없다.
정리하면, 그냥 observation의 결과를 곧 random variable로 만든 예이다.




2. Random variable은 observation의 function이다.

앞서 언급한 예제에서 0~100대 사이를 A, 100~1만대 사이를 B, 1만대 이상인 경우를 C라고 하자.
우리는 Random variable Y가 가질 수 있는 값의 범위를 다음과 같이 설정해 줄 수 있다.

S_Y = \{A,~B,~C\}


분명 같은 experiment이지만, random variable을 어떻게 설정해 주느냐는 자유이고,
당연히 그 결과가 나오는 것 역시 자유다. 어떻게 활용할 것인가의 문제다.

여기서 Random variable Y는 그냥 A, B, C중 하나의 값만 가질 수 있다.
우리는 X와 Y의 관계에 대해서 함수를 써 볼 수도 있고,
위에서 'observation의 function이다'라고 말했듯이 random variable의 정의를 함수로 쓸 수도 있다.



3. Random variable은 다른 random variable의 함수다.

Random variable Z = g(X) 라고 하자. g(x) = 5x - 500 이라고 한다면,
Z가 가질 수 있는 값은 다음과 같다. (X는 위에서 나온 고속도로 예제의 random variable이다.)

S_Z = \{-500,-495,\dots,0,5,10,\dots,305,310,\dots \}


X의 범위가 0, 1, 2, ... 이므로 위와 같이 나올 것은 굳이 계산을 직접 하지 않아도 알 수 있다.
말 그대로 어떤 random variable은 다른 random variable의 함수가 될 수 있다.

위에서도 말했듯이, 여러분이 어떻게 random variable을 설계하느냐의 문제이며,
random variable의 정의를 벗어나지 않는 범위에서,
왜 그렇게 설정했는가에 대해서 수식으로서 충분히 설명해 줄 수 있으면 그것으로 된다.  



Random Variable의 종류

크게 Random Variable은 continuous random variable과 discrete random variable로 나눌 수 있다.
먼저, Discrete random variable의 정의는 다음과 같다.

Discrete Random Variable

어떤 random variable X의 범위가

S_X = \{ x_1, x_2, \dots \}


와 같은, countable set일 때, X를 discrete random variable이라고 한다.

여기서 중요한 개념, countable set이 언급되었다.
여기서 이야기 하는 countable이란 말 그대로 셀 수 있어야 한다는 의미다.
예를 들어 X가 0 에서 1 사이의 어떤 실수가 될 수 있다고 하자.
0 에서 1 사이의 실수의 개수를 셀 수 있는가? 불가능하다. 이런 경우는 discrete RV의 예라고 볼 수 없는 것이다.

그렇다면, infinite set, 즉 무한 집합의 경우는 어떤가?
굳이 예를 가져오자면 위에서 언급했던 고속도로 톨게이트 예제가 좋은 예가 될 수 있다.
톨게이트를 지나는 차량 대수를 특별히 한정짓기가 어렵다. 즉 '...'과 같이 표시할 수 밖에 없다.
즉, infinite set으로 만들 수 밖에 없는데, 이 경우는 countable set에 속한다.
다시 말해서 outcome의 개수가 무한 개라고 하더라도,
각각의 outcome의 원소가 명확하게 정의 될 수 있다면(distinguishable) 그것은 countable set이다.

만약 finite set이고 각각의 원소가 distinguishable하면, 그것을 finite random variable이라고 한다.
이 용어는 그다지 사용할 일이 없으므로, 중요하게 보지 않아도 된다.

한편 continuous random variable의 정의는 여기서 자세히 설명할 수는 없지만,
위에서 언급한 0에서 1사이의 실수를 가지는 random variable이라면 continuous RV의 예가 될 수 있다.
좀 더 자세한 정의는 이후의 포스팅을 통해 다시 언급하도록 하겠다.

한편, 두 가지가 복합적으로 나타나는 경우도 있다.
이 경우에 대해서는 한참 뒤의 포스팅에서 언급이 될 예정이다.