期待値と分散の表記について

データ分析

機械学習数学統計

yad

2016.02.02

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

統計や機械学習等でよく用いられる期待値や分散等の表現について、教科書によっては確率変数を \( x \), 確率密度関数を \( p(x) \) とした時に、

[latex] E(x) = \int x p(x) dx [/latex]

[latex] V(x) = \int (x - E(x))^2 p(x) dx [/latex]

といった表現がなされることがあります。

これでも誤りでは無いのですが、この表記のまま式変形を進めようとした時に、関数の変数としての \( x \) と確率変数としての \(x \) を混同してしまう可能性が高いです。

期待値に渡す \( x \) とは？

例えば分散と期待値の関係として

[latex] V(x) = E(x^2) - E(x)^2 [/latex]

というものがあります。

これひとつとってみても、期待値の \( x \) を単なる関数の変数としてみなしてしまうと、次のように渡す変数の形を変えた時に確率密度関数に \( p \) に渡す \(x \) も変更してしまうような誤解をしてしまいがちです。

[latex] E(x^2) = \int x^2 p(x^2) dx [/latex]

このままだと先ほどの関係式は導かれません。実際には

[latex] E(x^2) = \int x^2 p(x) dx [/latex]

とみなして

[latex] V(x) = \int (x - E(x))^2 p(x) dx = \int (x^2 - 2xE(x) + E(x)^2) p(x) dx \\ = \int x^2 p(x) dx - 2E(x) \int x p(x) dx + E(x)^2 = E(x^2) - E(x)^2 [/latex]

のように変形を進めていきます。

確率変数としての理解

確率変数の理解をしようとするとき、その単語の意味を正確に把握する必要があります。

確率変数という単語は変数という名前が含まれていますが、岩波数学辞典の定義によれば、その実体は関数です。

[latex] X : \Omega \rightarrow \mathbb{R} [/latex]

\( \Omega \)はここでは標本空間とよばれ、厳密な定義にはさらに細かい条件がつきますが、実数空間上で定義された確率変数については \( \Omega = \mathbb{R} \) が言えます。そしてこの定義に従えば、実数空間上での確率変数 \( X \) の期待値、分散の表現は次のようなものです。

[latex] E(X) = \int X(\omega) p(\omega) d\omega \\ V(X) = E((X - E(X))^2) = \int (X(\omega) - E(X))^2 p(\omega) d\omega [/latex]

期待値や分散は \( X \) の表す関数の形に依存するのであって、具体的な値に依存するわけではありません。そのことを明示的にするために、通常の関数のような小括弧()を使わず、大カッコ[]を用いて計算を行っていくと、より入力の対象を明示的にできます。本によっては対象が関数であることを更に明示的にするために \( X \) の代わりに \( f \) が使われています。

[latex] E[f] = \int f(x) p(x) dx \\ V[f] = \int (f(x) - E[f])^2 p(x) dx [/latex]

このような関数を入力とする値は汎関数とも呼ばれ、それを扱う変分法という数学分野でも入力関数は大括弧[]で囲うことが慣習になっています。

このような定義をしておくと期待値や分散の計算の際にどの項が入力 \( f \) に依存しているかが明示的になるため、誤った結果を導くことが少なくなると考えられます。