Loading [MathJax]/jax/output/CommonHTML/jax.js
본문 바로가기
수학

Gaussian distribution

by 볼록티 2020. 6. 3.
728x90
반응형

확률분포는 이산형 확률분포와 연속형 확률분포로 나뉜다고 얘기했는데, 각각 여러 분포들을 가지고 있지만, 그중에서도 연속형 확률분포에 속하는 Gaussian distribution , normal distribution이라고도 불리는 녀석에 대해 알아본다.

 

이 가우시안 분포는 상당히 많이 쓰이는 분포이다. 아래는 가우시안 분포의 density function 이다.

 

이 pdf 형태는 기억해두는게 좋다. 이 분포를 특징 짓기 위해서는 두 개의 모수가 필요한데, 평균과 분산이 바로 그것이다. 이것이 주어졌을 때, 임의의 변수 x가 위와 같은 가우시안 분포를 따른다면, 이 xpdf는 위처럼 앞에 상수가 곱해진 function으로 표현된다.

 

위의 가우스 분포는 univariate random variable에 대한 것이고, 아래의 pdf는 multivariate random variable에 대한 pdf이다.

마찬가지로 두 모수가 필요한데 평균과 co-variance matrix이다. 이 두개로 가우스 분포가 결정된다. 앞 부분의 constant 의 D는 random variable의 dimension이다.

 

두 function 모두 앞에 constant가 있다. random variable x는 -\infty 에서 \infty의 값을 가진다. 그래야 pdf를 모두 적분하였을 때, 1이 나오게 만들어주는 constant이다.

 

x라는 random variable이 가우시안 분포를 따른다고 하면, 아래와 같이 표기를 하게 된다.

 

만약 평균이 0 이고, covariance matrix가 Imatrix인 경우에 이 가우시안 분포를 특별히 standard normal distribution 표준정규분포라고 한다.

 

 

 

 

(a)는 단변량일 때의 가우시안 분포이다. 이 pdf는 평균을 중심으로 대칭이고, peak가 하나만 주어져있는 shape을 보인다. 하나의 실험을 할 때 나오는 단일 결과들의 빈도에 대한 밀도를 나타낸다고 생각하면 된다. (b)는 (a)가 다차원 공간으로 확장되었다고 생각하면 된다. (b) 처럼 2 dimension인 경우 이를 bivariate distribution이라 하는데, x1,x2 가 다변량의 가우시안 분포를 따른다 했을 때의 그림이아래의 그림이다. 평균이 있는 쪽이 산이 솟아 있는 것처럼 보이는 density를 가진다.

 

 

 

가우시안 분포의 몇가지 성질들에 대해서 살펴보자. 

 

multivariate Gaussian random variables X,Y가 주어졌을 때 marginal distribution과 conditional distribution이 역시 Gaussian이 된다라는 성질이다. 6.64는 x,y의 Gaussian distribution을 따르는 평균과 공분산 행렬을 나타낸 pdf 를 나타낸다. 

 xxCov[x,x]를 나타낸다.

 

marginal distribution p(x)가 아래와 같은 가우시안 분포를 따른다. marginal distribution을 구하냐면 joint pdfx가 아닌 다른 변수들로 여기선 y로 integral(marginalize)해주면된다. 그렇게 되면 평균이 μx, 공분산행렬이 xx가 된다.

 

두번째로는 conditional function. x에 대한 density function 인데 y에 대한 condition이 되어 있는 이 function도 역시 가우시안 분포이다. 평균하고 공분산이 (6.66),(6.67) 에 각각 어떻게 나와있는지 나와있다.

covariance가 0이라고 해서 어떤 두 변수가 서로 독립이다라고 할 수 없다. 하지만 uncorelate 있을 때 자동적으로 독립이 되는 그러한  random variable이 있는데 그러한 변수들이 가우시안 분포를 따를 때, 공분산이 0이다하면 통계적으로 독립이다라고 얘기할 수 있다.

 

만약 아래와 같이 z가 가우시안 분포를 따른다고 하면, Cov(z,y)는 0 이된다라는 것을 알 수 있다.

 

Cov(z,y)=0으로 써 zy가 서로 독립이라는 것을 알 수 있다. z에 대한 평균과 분산을 계산해보자. 

 E[x|y=y] = E[z+cy|y=y]=E[z|y=y]+cE[y|y=y]=E[z]cE[y] = μx+c(yμy)

어떤 특정 yy일 때, x의 기댓값은 μx|y를 나타낸다.  공분산이 0이기 때문에 E[z|y=y]E[z] 라는 것을 알 수 있다. cE[y|y=y]cE[y] 가 되는 것은 yy로 고정된 상태라서 앞의 yy 를 가지는 constant값이 되기 때문이다.

 여기서 y 값은 y가 가질 수 있는 값이니까 yy로 써도 무방하다.

μx+c(yμy) 는 (6.66)식인 것을 알 수 있다. y에 conditioning된 x의 variance를 구해보자. 

 Var[x|y=y]=Var[z+cy|y=y] zy는 서로 독립이라고 했으니까 linear operator로써 이어서 적어보면 =Var[z|y=y]=Var[z]  그러므로 Cov[z,xcy]=Cov[z,x]Cov[z,y]cT 이고, Cov[z,y]가 0 이라고 했으니,=Cov[xcy,x]=Cov[x,x]cCov[y,z]=ΣxxcΣyx가 된다.

 

여기까지 mutivariate Gaussian distribution을 따르는 random variable이 있을 때, y에 condition을 걸고, 나머지 변수들에 대해 condition을 걸어도 가우시안 분포를 따르고 그 평균, 분산이 위와 같은 형태로 정리가 된다는 것을 보았다.

 

이를 예제를 통해서 직관적으로 알아보면 아래의 예제 6.6과 같다.

(a)의 경우는 평균과 분산이 주어져 있고, 이에 대해 x2=1이라는 condition하에서 x1이 어떻게 변하는지 살펴보면, 결국 2 dim에 존재하는 pdf를 x2=1라는 선으로 딱 잘라내고, 그 단면에서 x1가 어떠한 density 를 가지는지를 conditional probability가 알려 준다. 자른 단면을 생각해보면 (c)에서 x1의 axis에서 딱 쳐다보면 c같은 모양이 나오고 이 c가 가우시안 분포이고, 평균과 분산을 알 수 있다. 

marginal distribution의 경우는 더욱 간단하다. 평균과 분산이 각각 0, 0.3인데, (6.73)이 의미하는 것은 결국 x2에 대해 적분을 해주는 p(x1,x2)를 의미한다. 이 말은 임의의 x1에서 존재하는 모든 x2들에 대해서 density들을 다 합해주고 그 값을 x1 axis로 projection하면 그 결과가 (b)와 같은 그래프를 보이게 된다. 

 어떤 모델의 분포, 파라미터분포, 데이터분포를 가우시안 분포로 정의하는 경우가 많은데 가우시안을 따르는 랜덤변수들을 다양하게 조작해도 그 결과가 가우시안이 되는 경우가 대부분이기 때문에 많이 쓰인다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

a

728x90
반응형

'수학' 카테고리의 다른 글

Constrained optimization  (1) 2020.06.09
Gradient Descent Method  (1) 2020.06.09
Singular Decomposition(2)  (0) 2020.05.30
Singulardecomposition  (0) 2020.05.30
Eigendecomposition  (0) 2020.05.30

댓글