条件付き期待値のきもち

$ \newcommand{\F}{\family{F} } \newcommand{\G}{\family{G} } \newcommand{\B}{\family{B} } $

確率論を勉強していると，条件付き期待値という概念が出てきます． $X$を確率変数，$\G $を$\sigma$-加法族とするとき，$\G$の下での$X$の条件付き期待値$E[X | \G] $というものです．しかし，その定義はとても抽象的に感じられ，「条件付き期待値」という名前であるもののどういう意味で$X$の条件付きの期待値になっているのかがわかりにくいです．

本記事では，条件付き，すなわち「$\sigma$-加法族$\G$の下で」とはどういう意味かを明確にし，条件付き確率の自分なりの理解を説明します．まず，試行を行なったときにその結果の一部の情報を得るという考えを紹介し，それを踏まえて条件付き期待値を考える動機や条件付き期待値の定義のきもちを説明します．

なお，以下では定義や命題と称するものが度々出てきますが，私がきもちを説明するために勝手に考えたふわふわ定義やふわふわ命題がいくつかあります．数学的に厳密な概念にはなっていないかもしれませんが，きもちの解説ということでおおらかに見ていただけると嬉しいです．

また，用いる記号は，

$\power{\Omega} $で集合$\Omega$の部分集合全体の集合を表します．
$\B(\setR)$で$\setR$のボレル集合族を表します．

なお，$\sigma$-加法族の定義，(確率)測度の定義，ボレル集合族$\B(\setR) $の定義などは省略します．

情報を知るということ

まず，集合$\Omega$の$\sigma$-加法族$\F $やその部分$\sigma$-加法族$\G \subset \F $が，試行についての情報を表すこと，そして，「$\G $の下での」とか「$\G $を知る」とはどういうことか考えます．

確率空間に馴染んでいる人は，確率空間の節は飛ばしても問題ありません．

確率空間と確率変数の簡単な説明

確率論では，確率空間$(\Omega, \F, P) $によって現実世界でのランダムな試行を表現しています．

$\Omega $は，ランダムな試行を行なって起こりうる結果を集めた集合です．ランダムな試行とは，1つのサイコロを振る試行だったり，2枚のコインを投げる試行だったり，コインを無限に投げ続ける試行だったりといった，私たちが「ランダムな試行」と聞いて普通にイメージするような試行です．

例えば， 1つのサイコロを振る試行なら$\Omega = \set{1, 2, 3, 4, 5, 6} $， 2枚のコインを投げる試行ならコイン投げの結果を組で$(1枚目，2枚目)$と表して$\Omega = \set{(0, 0), (0, 1), (1, 0), (0, 0) } $，コインを無限に投げ続ける試行なら$\Omega = \set{\omega = (\omega_1, \omega_2, \dots) \in \setR^\setN \mid \omega_1, \omega_2, \dots = 0, 1} $となるでしょう．

そして，現実世界においてランダムな試行を行なうことは，$\Omega$の中の一点$\omega \in \Omega$をランダムに選ぶことに対応する，と考えることによって，確率論ではランダムな試行を表現しています．

次に，ランダムな試行の結果が起こりうる確率を表現します．それには起こりうる各結果$\omega \in \Omega $に対して$\omega$が起こる確率を一つ一つ割り当てればいいだろうとすぐに思いつきますが，実はこれは数学的にはうまくいかないという問題があります．

1つのサイコロを振る試行での$\Omega = \set{1, 2, 3, 4, 5, 6} $のような単純な$\Omega $ならその方法でうまくいくのですが，サイコロを無限に投げ続ける試行での$\Omega = \set{\omega = (\omega_1, \omega_2, \dots) } $のような複雑な無限集合だと各$\omega \in \Omega $にうまく確率を定めることはできないことがわかっています (この場合，定めるとするならどの$\omega$の確率も$0$とするしかありません．各$\omega$はどれも同じ確率で起こると思われますが，無限個のものに同じ確率を割り当てると，その確率がどんな正の値でもすべて足すと$\infty$になってしまい1にならないからです．それでは無意味ですよね？)．

そこで，各$\omega \in \Omega $に対して確率を割り当てるのではなくて，$\Omega$の部分集合$A \subset \Omega $に対して確率を割り当てればいいよね，となります．しかし，これまた面倒くさいことに，確率が満たしてほしい条件のためには，すべての部分集合$A \subset \Omega$に確率を与えることはできない (場合がある) こともわかっています．そこで，$\Omega $の部分集合$A \subset \Omega $のうち確率が定義できる集合のみを集めた$\F $を考えて，$\F $に属する各集合$A \in \F $に対して確率を定めます．この$\F$は$\sigma$-加法族と呼ばれる集合族です ($\sigma$-加法族$\F$は，可算無限回の集合演算なら自由に行える集合族，くらいに思っておけばよいと思います．例えば，$A_i \in \F \; (i=1, 2, \dots) $に可算無限回の演算を行なった集合$\bigcup_{i = 1}^\infty A_i $もまた$\F$に属する，などです)． $\F $に属する集合$A \in \F $のことを可測集合と呼び，確率論的な意味を強調するときには事象と呼びます．

そして，各事象$A \in \F $に$0～1 $の値を定める関数$P$を確率測度といいます．今までの説明で素朴に確率と呼んでいたものは確率測度のことに他なりません*1．確率測度は$\Omega \in \F $に対して$P(\Omega) = 1 $を満たす必要があります．全事象が起こる確率は$1$ということで，素朴に馴染んでいる確率のイメージとちゃんと合っていますね (なお，$\Omega $は必ず$\F $の要素でなければいけません．そのため$\Omega $の確率を考えることができます)．確率測度には他にもいくつかの条件がありますが，省略します．

最後に，確率変数について説明します．確率変数は，試行を行なう度にランダムに値が決まる変数，というイメージのものです．確率論では，$\Omega $から実数$\setR$への(可測)関数$\map{X}{\Omega}{\setR} $を確率変数と定義します (ここで，$X$が可測であるとは，任意の$B \in \B(\setR) $に対して$X^{-1}(B) \in \F$となることをいいます)．試行を行なうことによって$\omega \in \Omega $がランダムに選ばれ，それによって$X$の値が$X(\omega) $という具体的な値に決まる，ということで$X$がランダムに決まる変数だということを表現しています．

確率変数が集合$B \in \B(\setR) $に属する事象を$\set{X \in B} \; (= \set{\omega \in \Omega \mid X(\omega) \in B } = X^{-1}(B) )$と略記し， $X $が$B$に属する確率を$P(X \in B) = P(\set{X \in B})$で表します． $X$が属する集合$B $として区間$B = (a,b) $などは最低限考えたいため，確率変数の定義には可測性が要求されます．

結果の一部の情報だけを得る

$(\Omega, \F, P) $を確率空間とします．すなわち，$\Omega $は集合，$\F \subset \power{\Omega} $は$\sigma$-加法族，$\map{P}{\F}{[0,1]} $は確率測度です．以降でも$(\Omega, \F, P) $が出てきたら確率空間であるとします．

試行を行なうことは$\omega \in \Omega $を一つランダムに選ぶことでした．現実世界では，試行を行なったとき，結果を見ることでどの$\omega $が選ばれたのかを知ることができます．例えば，1つのサイコロを振る試行 ($\Omega = \set{1, 2, 3, 4, 5, 6}$) なら，試行を行なった結果サイコロの目が5であるとわかったら，選ばれた$\omega$は$\omega = 5 $であるとわかります．

しかし，現実世界の試行では，試行の結果についてすべてを知ることができない場合が多々あります．

例えば，1つのサイコロを振る試行なら，サイコロを振ったときに出たサイコロの目が第三者に隠されてしまいよく見えなかったが，目が多かったことから1でないことはわかった，などといった状況が考えられます．また，2枚のコインを投げる試行なら，1枚目のコインだけを投げた段階では2枚目の結果についてはわかりません．コインを無限に投げる試行なら，そもそも現実世界ではどんなにがんばっても有限回までの結果しかわからないため，どの$\omega = (\omega_1, \omega_2, \dots) \in \Omega $が選ばれたのかは知りようがありません．

このように，試行を行なったときに，結果についてすべてを知ってはないが，その一部分だけを知っているという状況はよく発生します．それは，情報が欠落してしまったからかもしれないし，時間的にまだ確率変数の値が確定していないからかもしれません．

しかし，そのような場合でも，試行の結果を見ることで，どの$\omega \in \Omega$が選ばれたのかをある程度絞ることができます．

例えば，サイコロを振って偶数であるとわかれば，事象$A = \set{2, 4, 6} $が起きたとわかるのだから，選ばれた$\omega $は少なくとも$A$に入っていること ($\omega \in A $) がわかります．また，コインを無限に投げる試行では，$k$個目まで投げればその結果が$\eta_1 , \eta_2 , \dots, \eta_k $ ($k個$) などと確定するのですから，少なくとも選ばれた$\omega $は$\set{\omega = (\eta _ {1}, \eta _ {2}, \dots, \eta _ {k}, \omega _ {k+1}, \dots) } $の形の事象に属すると絞られるでしょう．

このように，どの$\omega \in \Omega $が選ばれたのか完全にはわからなくとも，事象$A \in \F $が起こったと知れば$\omega \in A $であるとわかり，$\omega $の候補がある程度は絞れらたことになります．

情報を得ることを$\sigma$-加法族を用いて定式化する

このように，試行を行なったときに，どの$\omega \in \Omega$が選ばれたのかが完全にはわからなかったとしても，一部の事象$A \in \F $については $\omega \in A $かどうかがわかることは多々あります．すなわち，$\F$の部分集合$\G \subset \F $に属する事象については起こったかどうかがわかる，ということです．このことを定式化します．

注意すべきこととして，一部の事象が起こったかどうかわかっているとき，集合演算を行なうことで他の事象についても起こったかどうかがわかることがあります．例えば，$A \in \F $について$\omega \in A $であるとわかれば，その補集合$A^{c} $も$\F$の要素 ($A^{c} \in \F $) なので，$\omega \notin A^{c} $であるとわかります． $A, B \in \F $について$\omega \in A, \omega \in B $だとわかれば，$A \cap B \in \F $についても$\omega \in A \cap B $であるといえるでしょう ($\F$は$\sigma$-加法族であるため，$A \cap B$のように (可算無限回の) 集合演算を行なっても$\F $の要素であることに注意します．)．

よって，試行を行なった結果の一部の情報$\G \subset \F$を知っているということを表現するのには，$\G $は単に$\F$の部分集合であるとするのでは不十分であり， $\G$は$\sigma$-加法族であるとしたほうが良いことがわかります．

これを踏まえて，試行を行なったときの結果の一部の情報$\G \subset \F$を知っているということを以下のように定義します． $「\omega \in \Omega $が選ばれたとき」という文言は「試行を行なったときにおいて」という意味だと思ってください．

定義1

$(\Omega, \F, P) $を確率空間，$\G \subset \F $を$\F$の部分$\sigma$-加法族とする． $\omega \in \Omega $が選ばれたとき，任意の$A \in \G$について$\omega \in A $であるか$\omega \notin A $であるかを決定できるなら， $\G(\omega) $を知っているという．

どの$\omega \in \Omega $が選ばれたかによって，各$A \in \G $に対して$\omega \in A $かどうかは変わるため， $\G(\omega)$のように$(\omega)$を付けて表しています．

さて，上の定義では$\G$は一般的な$\sigma$-加法族であるとしましたが，最も馴染みがある$\sigma$-加法族は，確率変数$\map{X}{\Omega}{\setR} $が生成する$\sigma$-加法族$\sigma(X) = \set{X^{-1}(B) \mid B \in \B(\setR)} $ではないでしょうか (これが$\sigma$-加法族であることは容易に確認できます)． $X $の値が$X(\omega) \in B $であるとわかれば，$\omega$は$\omega \in X^{-1}(B) $であるとわかるので，$\sigma(X) $は$X $を観測することで得られる情報を集めたものだと思われます．また，$X(\omega) $の値について最も詳しく知ることは，$X(\omega) $の値が$X(\omega) = x_0 $と一つの値に決定できることではないでしょうか．そのとき，もうこれ以上$X$を観測することで得られる情報はなさそうなので， $\sigma(X)(\omega) $を知ったということになってほしいですね．実際にこれは成り立ちます．

命題2

$(\Omega, \F, P) $を確率空間，$\map{X}{\Omega}{\setR} $を確率変数とする． $ \omega \in \Omega$が選ばれたとき，$\sigma(X)(\omega) $を知ることと$X(\omega) $の値を知ることは同値である．

証明

($\sigma(X)(\omega) $を知る$\implies $$X(\omega)$の値を知る)：集合族$\family{A}_{X} \subset \F$を$\family{A}_{X} = \set{X^{-1} (\set{x}) \mid x \in \setR } $とおくと$\family{A}_{X} \subset \sigma(X) $である ($\set{x} \in \B(\setR) \; (x \in \setR) $に注意)．さらに，$\family{A}_{X} $は$\Omega$の分割となっている．実際，$x, x' \in \setR, \; x \neq x' $に対して$X^{-1}(\set{x}) \cap X^{-1}(\set{x'}) = \eset $であり，$\bigcup_{x \in \setR} X^{-1}(\set{x}) = \Omega $である．いま，$\sigma(X)(\omega) $を知っているから，ただ一つの$x_0 \in \setR $が存在して$\omega \in X^{-1}(\set{x_0}) $であるとわかり，$x \in \setR, \; x \neq x_0 $に対しては$\omega \notin X^{-1}(\set{x}) $であるとわかる．よって$X(\omega) = x_0 $であり$X(\omega)$の値を知ることができた．
（$X(\omega)$の値を知る$\implies $$\sigma(X) $を知る）： $X(\omega) = x_0 $であるとする．このとき，$\omega \in X^{-1}(\set{x_0}) $であり，$x \in \setR, \; x \neq x_0$に対しては$\omega \notin X^{-1}(\set{x}) $である．
任意の$x \in \setR $に対して，$A \in \sigma(X) $であって$A \neq \eset$かつ$A $が$X^{-1}(\set{x}) $の真部分集合であるもの ($A \subsetneq X^{-1}(\set{x}) $) は存在しないことに注意する．実際，もしそのような$A \in \sigma(X)$が存在したとすると，$A' = X^{-1}(\set{x}) - A $とおくと$A' \in \sigma(X)$，$A' \neq \eset $，$A \cap A' = \eset$である． $A, A' \in \sigma(X) $であるから，ある$B, B' \in \B(\setR) $が存在して$A = X^{-1}(B) $，$A' = X^{-1}(B') $となる． $C = B \cap \set{x} $，$C' = B \cap \set{x} $とおくと，$X(A) \subset \set{x} $，$X(A') \subset \set{x} $より$A = X^{-1}(C) $，$A' = X^{-1}(C') $となる．いま$A, A\neq \eset $であるから$C , C' \neq \eset $すなわち$C = C' = \set{x} $となり，$A = X^{-1}(C) = X^{-1}(C') = A' $となって仮定に反する．
これより，任意の$x \in \setR$に対して，任意の$A \in \sigma(X) $は$X^{-1}(\set{x}) \subset A $または$X^{-1}(\set{x}) \cap A = \eset $のどちらかであることもわかる．実際，$X^{-1}(\set{x}) \not\subset A $かつ$X^{-1}(\set{x}) \cap A \neq \eset $であるとすると，$A' = X^{-1}(\set{x}) \cap A$とおくと$A' \in \sigma(X)$，$A' \neq \eset $，$A' \subsetneq X^{-1}(\set{x}) $となって上で述べたことに反する．
よって，任意の$A \in \sigma(X) $は$X^{-1}(\set{x_0}) \subset A $または$ X^{-1}(\set{x_0}) \cap A = \eset$であるから，$X^{-1}(\set{x_0}) \subset A$なら$\omega \in A$，$ X^{-1}(\set{x_0}) \cap A = \eset$なら$\omega \notin A $であると判定することで$\sigma(X)(\omega) $を知ることができた．

可測関数

前節で定義した，試行を行なったときに$\F$の部分$\sigma$-加法族$\G \subset \F$について知るという概念を用いると，確率変数が$\G$-可測であるということを明快に意味付けできます．

命題3

$(\Omega, \F, P) $を確率空間，$\map{Y}{\Omega}{\setR} $は$\G $-可測であるとする．いま，$\omega \in \Omega$が選ばれたとする．このとき，$ \G(\omega)$を知れば$Y(\omega) $の値を知ることができる．

証明

$Y$が$\G $-可測であるということはすなわち$\sigma(Y) \subset \G $であるということであり，いま$\G(\omega) $を知っているから，定義より$ \sigma(Y)(\omega) $も知っている．よって，命題2より$Y(\omega)$の値も知ることができる．

すなわち，$\G $-可測な確率変数$Y$とは，試行を行なったときに$\G$について知った時点で$Y$の値も確定する，という意味合いがあるのです．

条件付き期待値のきもち

以上で述べたことをもとに，条件付き期待値を考える動機と，その定義が動機に沿ったものであることを説明します．

条件付き期待値を考える動機

試行を行なって一部の情報$\G \subset \F $だけを得ているときに，まだ知らない確率変数$X $の値について何かしら情報を知りたいのではないでしょうか．知りたいですよね．例えば，現時刻$t_0$までにわかっている株価の情報$X_t \; (t \leq t_0 $)の値から，まだ知らない未来の株価$X_t \; (t > t_0) $を知ることができたら大儲けできそうです*2．そのために，条件付き確率や条件つき期待値という概念は必要となるのです．

なお，事象の確率は期待値の形で表せるので (事象$A \in \F$の確率$P(A) $は$A$の定義関数$1 _ {A}$を用いて$P(A) = E[1 _ {A}] $とかける)，より一般的な概念を表すためには条件付き期待値を考える方が便利です．

条件付き期待値の定義

それでは，いよいよ条件付き期待値の定義について見ていきましょう．先ほど述べたように，試行を行って$\G(\omega)$を知っているときに確率変数$X$の"期待値"を知りたい，というのが条件付き期待値を定義する動機です．

定義4 条件付き期待値

$(\Omega, \F, P) $を確率空間とし，$\map{X}{\Omega}{\setR} $は可積分な確率変数 ($E[\abs{X}] < \infty $)，$\G \subset \F $は$\sigma$-加法族とする．このとき，以下の条件を満たす確率変数$Y $が，a.s.の意味で一意に存在する．

$Y $は$\G$-可測．
任意の$A \in \G$に対して$E[Y, A] = E[X, A] $が成り立つ．

この$Y$を$\G$の下での$X$の条件付き期待値といい，$Y(\omega) = E[X | \G](\omega) \; (\omega \in \Omega) $とかく．

2つの条件について見ていきます．

【1つ目：$Y = E[X|\G]$は$\G$-可測】

確率変数$Y$が$\G$-可測であるということは，試行を行なったときに$\G(\omega)$を知れば$Y(\omega)$の値も確定するということでした．よって，$E[X|\G]$は，$\G(\omega)$という条件下での何らかの値を出すもの，だと思えます．

【2つ目：任意の$A \in \G$に対して$E[Y, A] = E[X, A]$】

1つ目の条件によって，$Y = E[X|\G] $は$\G(\omega)$の条件下での何らかの値を出すものだということがわかりました．その値が，$\G(\omega)$の条件下での$X$の期待値になっていることを保証するのが2つ目の条件です．

$\G$が簡単な場合を考えます． $A_1, \dots, A_n \in \F $を$\Omega $の有限分割とします．すなわち，

$\bigcup_{i=1}^n A_i = \Omega $
$i \neq j $なら$A_i \cap A_j = \eset $

とし，すべて$P(A_i) > 0 $であるとします． $\G $を，$A_1, \dots, A_n $が生成する$\sigma$-加法族$\G = \sigma(\set{A_1, \dots, A_n} ) $とします．

このとき，条件付き期待値は \begin{align} E [X | \G] (\omega) = \sum _ {i=1} ^ {n} E[X | A_i] 1 _ {A _ {i}}(\omega) \quad (\omega \in \Omega) \end{align} となります．ここで，右辺に出てくる$E[X | A_i] $は，素朴な意味での条件付き確率です．すなわち，素朴な意味での条件付き確率$P(B | A_i) = \frac{P(B \cap A_i)}{P(A_i)} \; (B \in \F) $が$B$について確率測度になるので，それを用いて $E[X | A_i] = \int_{\Omega} X(\omega) P(d\omega| A_i) = E[X, A_i]/P(A_i) $と定義されます． $E[X | A_i]$は$\omega \in A_i $であるとわかったときの$X$の期待値を表しています．なお，$E[X|\G] $が右辺で表されるのを示すのは定義に戻って確認すればいいので省略します．

$A_1, \dots, A_n $は$\Omega $の分割をなしていたので，$\G $の中で最も細かい集合になっています．すなわち，$\G(\omega) $を知ったとき，$\omega$が$A_1, \dots, A_n $のどれかに入っていることはわかっても，それ以上$\omega$についての情報を知ることはできません．この，$\G$の中で最も細かい集合$A_1, \dots, A_n$上で$X $の期待値を得ようとすれば，その値は$E[X | A_i] $とするのが良いでしょう．右辺の式は$A_i $上で定数$E[X|A_i] $を取るので，各$\omega \in \Omega $に対して右辺の値は$\G $で最も細かい集合上での$X $の条件付き期待値になっているのです．

一般の$\sigma$-加法族$\G$でも，分割をだんだん細かくしていったときの$\sigma$-加法族の極限のように捉えられるはずです*3．そのため，$Y = E[X | \G] $の定義に「任意の$A \in \G$に対して$E[Y, A] = E[X, A]$」という条件を付けておけば，有限分割のときと同様に，$E[X|\G] $の値が確定したときにはそれは$\G(\omega)$という条件下での$X$の期待値のようなものになっていると考えられます．

また，別の視点として，条件付き期待値$E[X|\G] $は，$\G$-可測確率変数の中で，$X$を$L ^ 2$ノルムの意味で最も良く近似する確率変数になっていることも挙げられます．すなわち，上のように定義した$E[X|\G] $は，$\G$-可測関数$Y$のうち$E[(X - Y) ^ 2] $を最小にするような$Y$に等しいのです (条件付き期待値の性質を使えばこれを示すのはそれほど難しくないです)．このことからしても$E[X | \G]$は$X$を期待値の意味で近似したものになっているといえるでしょう．

以上により，$E[X|\G] $は，試行を行って$\G(\omega)$を知っているときに，その状況下での確率変数$X$の期待値を与えてくれるものだということがわかりました．また，これで「条件付き期待値$E[X | \G] $は確率変数である」という，初めは何を言ってるんだかよくわからないことの意味もよくわかるのではないでしょうか．各$\omega \in \Omega $によって$\G(\omega) $の状況は違うので，$E[X | \G]$はそのときどきの$\omega$に応じた$X$の期待値を与えるということで確率変数なのです．

最後に，まとめとして，$\G$の下での$X$の条件付き期待値$E[X|\G] $の定義は，次のように読めます．

$Y = E [X | \G] $は$\G$-可測・・・試行を行なったときに，$\G(\omega)$を知れば$E [X | \G ](\omega)$の値は確定して，
任意の$A \in \G $に対して$E [Y, A] = E [X, A] $・・・その値は$\G(\omega)$という状況のもとでの$X$の期待値になっている．

まとめ

試行を行なったときに一部の情報$\G \subset \F $について知るという考えを説明しました．この考え方を使うと，確率変数が$\G $-可測であることは「$\G$について知ったときに値が確定する確率変数」という意味合いをもたせることができました．そして，条件付き期待値は，未知の確率変数を，現段階で得られている情報をもとに期待値の意味で最もよく近似するという性質を持った確率変数だと言えます．

なお，条件付き期待値のきもちがわかっても，じゃあ実際にどうやって具体的な確率変数としての式 (表記) を得るのか，という問題がまだ残っています．確率論の本では$E[X | \G]$という抽象的な形のままで扱うことが多いですが，実際の問題を扱うとき (統計や機械学習など) では具体的な式として表すことも重要です．また，具体的な表現方法を知ることで条件付き期待値の理解がより一層深まるかと思います．これについてはまた別の記事で書こうと思います．

参考文献

舟木直久，『確率論』，朝倉書店，2004．

この本は，有限分割から生成される$\sigma$-加法族については詳しく書かれているものの，一般の$\sigma$-加法族に対する条件付き期待値のイメージはあまり書かれていませんでした．

*1:例えば，$\Omega = \set{1, 2, 3, 4, 5, 6} $なら部分集合として$\set{1} $や$\set{4}$を考えられるので，簡単な有限集合の場合には各$\omega \in \Omega $に確率を与えることとほとんど同じです．その意味で，確率測度は，素朴な有限の場合の確率を上手に拡張しているといえます．

*2:私は株や投資のことはよく知らないので適当なイメージで書いてます．

*3:この文は舟木さんの本に書いてあることの受け売りです．