多変量正規分布とガンマ分布の意外な関係
X ~ N(μ,σ²I) の場合(Iは単位行列),X と μ のユークリッド距離の2乗がガンマ分布に従うみたいですね.
ガンマ分布の確率密度関数は次のような関数です.
\[f(x) = x^{k-1} \frac{e^{-x/\theta}}{\Gamma(k)\,\theta^k}\]これを X ~ Gamma(k,θ) と表記します.
うーん…どうしてユークリッド距離の2乗がガンマ分布に従うのかいまいちピンとこない…
これにはカイ2乗分布が深く関係しているようです.
カイ2乗分布の確率変数をユークリッド距離で表現する
カイ2乗分布はガンマ分布の特殊系で,確率密度関数は z ≧ 0 について,
\[f(z)=\frac{(1/2)^{k/2}}{\Gamma(k/2)} z^{k/2 - 1} e^{-z/2}\]で表されます.
k個の独立な Xi ~ N(μi,σ²i) について,
\[Z = \sum_{i=1}^k \left(\frac{x_i-\mu_i}{\sigma_i}\right)^2\]がカイ2乗分布に従うわけですが,σiが全てσで共通で,x = (x1, x2, …, xk)T,μ = (μ1, μ2, …, μk)Tとおいた場合は
\[Z = \frac{1}{\sigma^2} \|\bm{x}-\bm{\mu}\|^2\]と表記できます.この時点でマハラノビス距離の2乗がカイ2乗分布に従うということが言えるので,なんだか証明できそうな気がします.
確率変数を変換して確率密度関数を求める
確率変数 x, その確率密度関数 f(x) に対して x = g(y) の変換を考えると,y の確率密度関数 h(y) は次のように表されます.
\[h(y) = f(g(y))\left|\frac{dx}{dy}\right|\]今回の場合,z の確率密度関数が f(z) で,|x-μ|² = u とおくと,z = u/σ² という変換に対応するので,u の確率密度関数 h(u) は
\[h(u)=f(u/\sigma^2)\cdot \frac{1}{\sigma^2}\]となります.
これを整理すると,
となるので,U ~ Gamma(k/2, 2σ²) が証明でき,つまりユークリッド距離の2乗がガンマ分布に従うということが言えます.
なかなかおもしろいことを知ったなぁという感じなんですが,けっこう常識なんですかね…
参考
- Jia Li and James Z. Wang, Real-Time Computerized Annotation of Pictures, IEEE Trans. Pattern Anal. Mach. Intell, vol. 30, no. 6, pp. 985-1002, 2008.
↑この内容について触れていたのがこちらの論文(この事実を使ったというだけ) - Normal Distribution, Wolfram MathWorld
あとはWikipedia様様.