확률분포는 이산형 확률분포와 연속형 확률분포로 나뉜다고 얘기했는데, 각각 여러 분포들을 가지고 있지만, 그중에서도 연속형 확률분포에 속하는 Gaussian distribution , normal distribution이라고도 불리는 녀석에 대해 알아본다.
이 가우시안 분포는 상당히 많이 쓰이는 분포이다. 아래는 가우시안 분포의 density function 이다.

이 pdf 형태는 기억해두는게 좋다. 이 분포를 특징 짓기 위해서는 두 개의 모수가 필요한데, 평균과 분산이 바로 그것이다. 이것이 주어졌을 때, 임의의 변수 x가 위와 같은 가우시안 분포를 따른다면, 이 x의 pdf는 위처럼 앞에 상수가 곱해진 function으로 표현된다.
위의 가우스 분포는 univariate random variable에 대한 것이고, 아래의 pdf는 multivariate random variable에 대한 pdf이다.

마찬가지로 두 모수가 필요한데 평균과 co-variance matrix이다. 이 두개로 가우스 분포가 결정된다. 앞 부분의 constant 의 D는 random variable의 dimension이다.
두 function 모두 앞에 constant가 있다. random variable x는 -\infty 에서 \infty의 값을 가진다. 그래야 pdf를 모두 적분하였을 때, 1이 나오게 만들어주는 constant이다.
x라는 random variable이 가우시안 분포를 따른다고 하면, 아래와 같이 표기를 하게 된다.

만약 평균이 0 이고, covariance matrix가 Imatrix인 경우에 이 가우시안 분포를 특별히 standard normal distribution 표준정규분포라고 한다.

(a)는 단변량일 때의 가우시안 분포이다. 이 pdf는 평균을 중심으로 대칭이고, peak가 하나만 주어져있는 shape을 보인다. 하나의 실험을 할 때 나오는 단일 결과들의 빈도에 대한 밀도를 나타낸다고 생각하면 된다. (b)는 (a)가 다차원 공간으로 확장되었다고 생각하면 된다. (b) 처럼 2 dimension인 경우 이를 bivariate distribution이라 하는데, x1,x2 가 다변량의 가우시안 분포를 따른다 했을 때의 그림이아래의 그림이다. 평균이 있는 쪽이 산이 솟아 있는 것처럼 보이는 density를 가진다.

가우시안 분포의 몇가지 성질들에 대해서 살펴보자.
multivariate Gaussian random variables X,Y가 주어졌을 때 marginal distribution과 conditional distribution이 역시 Gaussian이 된다라는 성질이다. 6.64는 x,y의 Gaussian distribution을 따르는 평균과 공분산 행렬을 나타낸 pdf 를 나타낸다.
∑xx는 Cov[x,x]를 나타낸다.

marginal distribution p(x)가 아래와 같은 가우시안 분포를 따른다. marginal distribution을 구하냐면 joint pdf를 x가 아닌 다른 변수들로 여기선 y로 integral(marginalize)해주면된다. 그렇게 되면 평균이 μx, 공분산행렬이 ∑xx가 된다.

두번째로는 conditional function. x에 대한 density function 인데 y에 대한 condition이 되어 있는 이 function도 역시 가우시안 분포이다. 평균하고 공분산이 (6.66),(6.67) 에 각각 어떻게 나와있는지 나와있다.

covariance가 0이라고 해서 어떤 두 변수가 서로 독립이다라고 할 수 없다. 하지만 uncorelate 있을 때 자동적으로 독립이 되는 그러한 random variable이 있는데 그러한 변수들이 가우시안 분포를 따를 때, 공분산이 0이다하면 통계적으로 독립이다라고 얘기할 수 있다.
만약 아래와 같이 z가 가우시안 분포를 따른다고 하면, Cov(z,y)는 0 이된다라는 것을 알 수 있다.


Cov(z,y)=0으로 써 z와 y가 서로 독립이라는 것을 알 수 있다. z에 대한 평균과 분산을 계산해보자.
E[x|y=y∗] = E[z+cy|y=y∗]=E[z|y=y∗]+c⋅E[y|y=y∗]=E[z]−c⋅E[y] = μx+c⋅(y∗−μy)
어떤 특정 y가 y∗일 때, x의 기댓값은 μx|y를 나타낸다. 공분산이 0이기 때문에 E[z|y=y∗] 는 E[z] 라는 것을 알 수 있다. c⋅E[y|y=y∗] 가 c⋅E[y] 가 되는 것은 y가 y∗로 고정된 상태라서 앞의 y는 y∗ 를 가지는 constant값이 되기 때문이다.
여기서 y∗ 값은 y가 가질 수 있는 값이니까 y∗를 y로 써도 무방하다.
μx+c⋅(y∗−μy) 는 (6.66)식인 것을 알 수 있다. y에 conditioning된 x의 variance를 구해보자.
Var[x|y=y∗]=Var[z+cy|y=y∗] z와 y는 서로 독립이라고 했으니까 linear operator로써 이어서 적어보면 =Var[z|y=y∗]=Var[z] 그러므로 Cov[z,x−cy]=Cov[z,x]−Cov[z,y]⋅cT 이고, Cov[z,y]가 0 이라고 했으니,=Cov[x−cy,x]=Cov[x,x]−c⋅Cov[y,z]=Σxx−c⋅Σyx가 된다.
여기까지 mutivariate Gaussian distribution을 따르는 random variable이 있을 때, y에 condition을 걸고, 나머지 변수들에 대해 condition을 걸어도 가우시안 분포를 따르고 그 평균, 분산이 위와 같은 형태로 정리가 된다는 것을 보았다.
이를 예제를 통해서 직관적으로 알아보면 아래의 예제 6.6과 같다.

(a)의 경우는 평균과 분산이 주어져 있고, 이에 대해 x2=−1이라는 condition하에서 x1이 어떻게 변하는지 살펴보면, 결국 2 dim에 존재하는 pdf를 x2=−1라는 선으로 딱 잘라내고, 그 단면에서 x1가 어떠한 density 를 가지는지를 conditional probability가 알려 준다. 자른 단면을 생각해보면 (c)에서 x1의 axis에서 딱 쳐다보면 c같은 모양이 나오고 이 c가 가우시안 분포이고, 평균과 분산을 알 수 있다.
marginal distribution의 경우는 더욱 간단하다. 평균과 분산이 각각 0, 0.3인데, (6.73)이 의미하는 것은 결국 x2에 대해 적분을 해주는 ∫p(x1,x2)를 의미한다. 이 말은 임의의 x1에서 존재하는 모든 x2들에 대해서 density들을 다 합해주고 그 값을 x1 axis로 projection하면 그 결과가 (b)와 같은 그래프를 보이게 된다.
어떤 모델의 분포, 파라미터분포, 데이터분포를 가우시안 분포로 정의하는 경우가 많은데 가우시안을 따르는 랜덤변수들을 다양하게 조작해도 그 결과가 가우시안이 되는 경우가 대부분이기 때문에 많이 쓰인다.
a
'수학' 카테고리의 다른 글
Constrained optimization (1) | 2020.06.09 |
---|---|
Gradient Descent Method (1) | 2020.06.09 |
Singular Decomposition(2) (0) | 2020.05.30 |
Singulardecomposition (0) | 2020.05.30 |
Eigendecomposition (0) | 2020.05.30 |
댓글