확률분포는 이산형 확률분포와 연속형 확률분포로 나뉜다고 얘기했는데, 각각 여러 분포들을 가지고 있지만, 그중에서도 연속형 확률분포에 속하는 Gaussian distribution , normal distribution이라고도 불리는 녀석에 대해 알아본다.
이 가우시안 분포는 상당히 많이 쓰이는 분포이다. 아래는 가우시안 분포의 density function 이다.
이 pdf 형태는 기억해두는게 좋다. 이 분포를 특징 짓기 위해서는 두 개의 모수가 필요한데, 평균과 분산이 바로 그것이다. 이것이 주어졌을 때, 임의의 변수 $x$가 위와 같은 가우시안 분포를 따른다면, 이 $x$의 $pdf$는 위처럼 앞에 상수가 곱해진 function으로 표현된다.
위의 가우스 분포는 univariate random variable에 대한 것이고, 아래의 $pdf$는 multivariate random variable에 대한 $pdf$이다.
마찬가지로 두 모수가 필요한데 평균과 co-variance matrix이다. 이 두개로 가우스 분포가 결정된다. 앞 부분의 constant 의 $D$는 random variable의 dimension이다.
두 function 모두 앞에 constant가 있다. random variable $x$는 -\infty 에서 \infty의 값을 가진다. 그래야 $pdf$를 모두 적분하였을 때, 1이 나오게 만들어주는 constant이다.
$x$라는 random variable이 가우시안 분포를 따른다고 하면, 아래와 같이 표기를 하게 된다.
만약 평균이 0 이고, covariance matrix가 $I$matrix인 경우에 이 가우시안 분포를 특별히 standard normal distribution 표준정규분포라고 한다.
(a)는 단변량일 때의 가우시안 분포이다. 이 $pdf$는 평균을 중심으로 대칭이고, peak가 하나만 주어져있는 shape을 보인다. 하나의 실험을 할 때 나오는 단일 결과들의 빈도에 대한 밀도를 나타낸다고 생각하면 된다. (b)는 (a)가 다차원 공간으로 확장되었다고 생각하면 된다. (b) 처럼 2 dimension인 경우 이를 bivariate distribution이라 하는데, $x_{1}, x_{2}$ 가 다변량의 가우시안 분포를 따른다 했을 때의 그림이아래의 그림이다. 평균이 있는 쪽이 산이 솟아 있는 것처럼 보이는 density를 가진다.
가우시안 분포의 몇가지 성질들에 대해서 살펴보자.
multivariate Gaussian random variables $X, Y$가 주어졌을 때 marginal distribution과 conditional distribution이 역시 Gaussian이 된다라는 성질이다. 6.64는 $x,y$의 Gaussian distribution을 따르는 평균과 공분산 행렬을 나타낸 $pdf$ 를 나타낸다.
$\sum_{xx}$는 $Cov[x,x]$를 나타낸다.
marginal distribution $p(x)$가 아래와 같은 가우시안 분포를 따른다. marginal distribution을 구하냐면 joint $pdf$를 $x$가 아닌 다른 변수들로 여기선 $y$로 integral(marginalize)해주면된다. 그렇게 되면 평균이 $\mu_{x}$, 공분산행렬이 $\sum_{xx}$가 된다.
두번째로는 conditional function. $x$에 대한 density function 인데 $y$에 대한 condition이 되어 있는 이 function도 역시 가우시안 분포이다. 평균하고 공분산이 (6.66),(6.67) 에 각각 어떻게 나와있는지 나와있다.
covariance가 0이라고 해서 어떤 두 변수가 서로 독립이다라고 할 수 없다. 하지만 uncorelate 있을 때 자동적으로 독립이 되는 그러한 random variable이 있는데 그러한 변수들이 가우시안 분포를 따를 때, 공분산이 0이다하면 통계적으로 독립이다라고 얘기할 수 있다.
만약 아래와 같이 $z$가 가우시안 분포를 따른다고 하면, $Cov(z,y)$는 0 이된다라는 것을 알 수 있다.
$Cov(z,y) = 0$으로 써 $z$와 $y$가 서로 독립이라는 것을 알 수 있다. $z$에 대한 평균과 분산을 계산해보자.
$E[x|y=y^{*}]$ $=$ $ E[z+cy|y=y^{*}] = E[z|y=y^{*}] + c \cdot E[y|y=y^{*}] = E[z]-c \cdot E[y]$ $=$ $\mu_{x} + c \cdot (y^{*} - \mu_{y})$
어떤 특정 $y$가 $y^{*}$일 때, $x$의 기댓값은 $\mu_{x|y}$를 나타낸다. 공분산이 0이기 때문에 $E[z|y=y^{*}]$ 는 $E[z]$ 라는 것을 알 수 있다. $c \cdot E[y|y=y^{*}] $ 가 $c \cdot E[y]$ 가 되는 것은 $y$가 $y^{*}$로 고정된 상태라서 앞의 $y$는 $y^{*}$ 를 가지는 constant값이 되기 때문이다.
여기서 $y^{*}$ 값은 $y$가 가질 수 있는 값이니까 $y^{*}$를 $y$로 써도 무방하다.
$\mu_{x} + c \cdot (y^{*} - \mu_{y})$ 는 (6.66)식인 것을 알 수 있다. $y$에 conditioning된 $x$의 variance를 구해보자.
$Var[x|y=y^{*}] = Var[z + cy| y=y^{*}] $ $z$와 $y$는 서로 독립이라고 했으니까 linear operator로써 이어서 적어보면 $ = Var[z|y=y^{*}] = Var[z] $ 그러므로 $Cov[z, x-cy] = Cov[z,x] - Cov[z,y] \cdot c^{T}$ 이고, $Cov[z,y]$가 0 이라고 했으니,$= Cov[x-cy, x] = Cov[x,x] - c \cdot Cov[y,z] = \Sigma_{xx}- c \cdot \Sigma_{yx}$가 된다.
여기까지 mutivariate Gaussian distribution을 따르는 random variable이 있을 때, $y$에 condition을 걸고, 나머지 변수들에 대해 condition을 걸어도 가우시안 분포를 따르고 그 평균, 분산이 위와 같은 형태로 정리가 된다는 것을 보았다.
이를 예제를 통해서 직관적으로 알아보면 아래의 예제 6.6과 같다.
(a)의 경우는 평균과 분산이 주어져 있고, 이에 대해 $x_{2}=-1$이라는 condition하에서 $x_{1}$이 어떻게 변하는지 살펴보면, 결국 2 dim에 존재하는 pdf를 $x_{2}=-1$라는 선으로 딱 잘라내고, 그 단면에서 $x_{1}$가 어떠한 density 를 가지는지를 conditional probability가 알려 준다. 자른 단면을 생각해보면 $(c)$에서 $x_{1}$의 axis에서 딱 쳐다보면 $c$같은 모양이 나오고 이 $c$가 가우시안 분포이고, 평균과 분산을 알 수 있다.
marginal distribution의 경우는 더욱 간단하다. 평균과 분산이 각각 0, 0.3인데, (6.73)이 의미하는 것은 결국 $x_{2}$에 대해 적분을 해주는 $\int p(x_{1}, x_{2})$를 의미한다. 이 말은 임의의 $x_{1}$에서 존재하는 모든 $x_{2}$들에 대해서 density들을 다 합해주고 그 값을 $x_{1}$ axis로 projection하면 그 결과가 (b)와 같은 그래프를 보이게 된다.
어떤 모델의 분포, 파라미터분포, 데이터분포를 가우시안 분포로 정의하는 경우가 많은데 가우시안을 따르는 랜덤변수들을 다양하게 조작해도 그 결과가 가우시안이 되는 경우가 대부분이기 때문에 많이 쓰인다.
a
'수학' 카테고리의 다른 글
Constrained optimization (1) | 2020.06.09 |
---|---|
Gradient Descent Method (1) | 2020.06.09 |
Singular Decomposition(2) (0) | 2020.05.30 |
Singulardecomposition (0) | 2020.05.30 |
Eigendecomposition (0) | 2020.05.30 |
댓글