2021-01-27

条件付き期待値のきもち

数学解析学確率論

$ \newcommand{\F}{\family{F} } \newcommand{\G}{\family{G} } \newcommand{\B}{\family{B} } $

確率論を勉強していると，条件付き期待値という概念が出てきます． $X$を確率変数，$\G $を$\sigma$-加法族とするとき，$\G$の下での$X$の条件付き期待値$E[X | \G] $というものです．しかし，その定義はとても抽象的に感じられ，「条件付き期待値」という名前であるもののどういう意味で$X$の条件付きの期待値になっているのかがわかりにくいです．

本記事では，条件付き，すなわち「$\sigma$-加法族$\G$の下で」とはどういう意味かを明確にし，条件付き確率の自分なりの理解を説明します．まず，試行を行なったときにその結果の一部の情報を得るという考えを紹介し，それを踏まえて条件付き期待値を考える動機や条件付き期待値の定義のきもちを説明します．

なお，以下では定義や命題と称するものが度々出てきますが，私がきもちを説明するために勝手に考えたふわふわ定義やふわふわ命題がいくつかあります．数学的に厳密な概念にはなっていないかもしれませんが，きもちの解説ということでおおらかに見ていただけると嬉しいです．

また，用いる記号は，

$\power{\Omega} $で集合$\Omega$の部分集合全体の集合を表します．
$\B(\setR)$で$\setR$のボレル集合族を表します．

なお，$\sigma$-加法族の定義，(確率)測度の定義，ボレル集合族$\B(\setR) $の定義などは省略します．

情報を知るということ

まず，集合$\Omega$の$\sigma$-加法族$\F $やその部分$\sigma$-加法族$\G \subset \F $が，試行についての情報を表すこと，そして，「$\G $の下での」とか「$\G $を知る」とはどういうことか考えます．

確率空間に馴染んでいる人は，確率空間の節は飛ばしても問題ありません．

確率空間と確率変数の簡単な説明

確率論では，確率空間$(\Omega, \F, P) $によって現実世界でのランダムな試行を表現しています．

$\Omega $は，ランダムな試行を行なって起こりうる結果を集めた集合です．ランダムな試行とは，1つのサイコロを振る試行だったり，2枚のコインを投げる試行だったり，コインを無限に投げ続ける試行だったりといった，私たちが「ランダムな試行」と聞いて普通にイメージするような試行です．

例えば， 1つのサイコロを振る試行なら$\Omega = \set{1, 2, 3, 4, 5, 6} $， 2枚のコインを投げる試行ならコイン投げの結果を組で$(1枚目，2枚目)$と表して$\Omega = \set{(0, 0), (0, 1), (1, 0), (0, 0) } $，コインを無限に投げ続ける試行なら$\Omega = \set{\omega = (\omega_1, \omega_2, \dots) \in \setR^\setN \mid \omega_1, \omega_2, \dots = 0, 1} $となるでしょう．

そして，現実世界においてランダムな試行を行なうことは，$\Omega$の中の一点$\omega \in \Omega$をランダムに選ぶことに対応する，と考えることによって，確率論ではランダムな試行を表現しています．

次に，ランダムな試行の結果が起こりうる確率を表現します．それには起こりうる各結果$\omega \in \Omega $に対して$\omega$が起こる確率を一つ一つ割り当てればいいだろうとすぐに思いつきますが，実はこれは数学的にはうまくいかないという問題があります．

1つのサイコロを振る試行での$\Omega = \set{1, 2, 3, 4, 5, 6} $のような単純な$\Omega $ならその方法でうまくいくのですが，サイコロを無限に投げ続ける試行での$\Omega = \set{\omega = (\omega_1, \omega_2, \dots) } $のような複雑な無限集合だと各$\omega \in \Omega $にうまく確率を定めることはできないことがわかっています (この場合，定めるとするならどの$\omega$の確率も$0$とするしかありません．各$\omega$はどれも同じ確率で起こると思われますが，無限個のものに同じ確率を割り当てると，その確率がどんな正の値でもすべて足すと$\infty$になってしまい1にならないからです．それでは無意味ですよね？)．

そこで，各$\omega \in \Omega $に対して確率を割り当てるのではなくて，$\Omega$の部分集合$A \subset \Omega $に対して確率を割り当てればいいよね，となります．しかし，これまた面倒くさいことに，確率が満たしてほしい条件のためには，すべての部分集合$A \subset \Omega$に確率を与えることはできない (場合がある) こともわかっています．そこで，$\Omega $の部分集合$A \subset \Omega $のうち確率が定義できる集合のみを集めた$\F $を考えて，$\F $に属する各集合$A \in \F $に対して確率を定めます．この$\F$は$\sigma$-加法族と呼ばれる集合族です ($\sigma$-加法族$\F$は，可算無限回の集合演算なら自由に行える集合族，くらいに思っておけばよいと思います．例えば，$A_i \in \F \; (i=1, 2, \dots) $に可算無限回の演算を行なった集合$\bigcup_{i = 1}^\infty A_i $もまた$\F$に属する，などです)． $\F $に属する集合$A \in \F $のことを可測集合と呼び，確率論的な意味を強調するときには事象と呼びます．

そして，各事象$A \in \F $に$0～1 $の値を定める関数$P$を確率測度といいます．今までの説明で素朴に確率と呼んでいたものは確率測度のことに他なりません*1．確率測度は$\Omega \in \F $に対して$P(\Omega) = 1 $を満たす必要があります．全事象が起こる確率は$1$ということで，素朴に馴染んでいる確率のイメージとちゃんと合っていますね (なお，$\Omega $は必ず$\F $の要素でなければいけません．そのため$\Omega $の確率を考えることができます)．確率測度には他にもいくつかの条件がありますが，省略します．

最後に，確率変数について説明します．確率変数は，試行を行なう度にランダムに値が決まる変数，というイメージのものです．確率論では，$\Omega $から実数$\setR$への(可測)関数$\map{X}{\Omega}{\setR} $を確率変数と定義します (ここで，$X$が可測であるとは，任意の$B \in \B(\setR) $に対して$X^{-1}(B) \in \F$となることをいいます)．試行を行なうことによって$\omega \in \Omega $がランダムに選ばれ，それによって$X$の値が$X(\omega) $という具体的な値に決まる，ということで$X$がランダムに決まる変数だということを表現しています．

確率変数が集合$B \in \B(\setR) $に属する事象を$\set{X \in B} \; (= \set{\omega \in \Omega \mid X(\omega) \in B } = X^{-1}(B) )$と略記し， $X $が$B$に属する確率を$P(X \in B) = P(\set{X \in B})$で表します． $X$が属する集合$B $として区間$B = (a,b) $などは最低限考えたいため，確率変数の定義には可測性が要求されます．

結果の一部の情報だけを得る

$(\Omega, \F, P) $を確率空間とします．すなわち，$\Omega $は集合，$\F \subset \power{\Omega} $は$\sigma$-加法族，$\map{P}{\F}{[0,1]} $は確率測度です．以降でも$(\Omega, \F, P) $が出てきたら確率空間であるとします．

試行を行なうことは$\omega \in \Omega $を一つランダムに選ぶことでした．現実世界では，試行を行なったとき，結果を見ることでどの$\omega $が選ばれたのかを知ることができます．例えば，1つのサイコロを振る試行 ($\Omega = \set{1, 2, 3, 4, 5, 6}$) なら，試行を行なった結果サイコロの目が5であるとわかったら，選ばれた$\omega$は$\omega = 5 $であるとわかります．

しかし，現実世界の試行では，試行の結果についてすべてを知ることができない場合が多々あります．

例えば，1つのサイコロを振る試行なら，サイコロを振ったときに出たサイコロの目が第三者に隠されてしまいよく見えなかったが，目が多かったことから1でないことはわかった，などといった状況が考えられます．また，2枚のコインを投げる試行なら，1枚目のコインだけを投げた段階では2枚目の結果についてはわかりません．コインを無限に投げる試行なら，そもそも現実世界ではどんなにがんばっても有限回までの結果しかわからないため，どの$\omega = (\omega_1, \omega_2, \dots) \in \Omega $が選ばれたのかは知りようがありません．

このように，試行を行なったときに，結果についてすべてを知ってはないが，その一部分だけを知っているという状況はよく発生します．それは，情報が欠落してしまったからかもしれないし，時間的にまだ確率変数の値が確定していないからかもしれません．

しかし，そのような場合でも，試行の結果を見ることで，どの$\omega \in \Omega$が選ばれたのかをある程度絞ることができます．

例えば，サイコロを振って偶数であるとわかれば，事象$A = \set{2, 4, 6} $が起きたとわかるのだから，選ばれた$\omega $は少なくとも$A$に入っていること ($\omega \in A $) がわかります．また，コインを無限に投げる試行では，$k$個目まで投げればその結果が$\eta_1 , \eta_2 , \dots, \eta_k $ ($k個$) などと確定するのですから，少なくとも選ばれた$\omega $は$\set{\omega = (\eta _ {1}, \eta _ {2}, \dots, \eta _ {k}, \omega _ {k+1}, \dots) } $の形の事象に属すると絞られるでしょう．

このように，どの$\omega \in \Omega $が選ばれたのか完全にはわからなくとも，事象$A \in \F $が起こったと知れば$\omega \in A $であるとわかり，$\omega $の候補がある程度は絞れらたことになります．

情報を得ることを$\sigma$-加法族を用いて定式化する

このように，試行を行なったときに，どの$\omega \in \Omega$が選ばれたのかが完全にはわからなかったとしても，一部の事象$A \in \F $については $\omega \in A $かどうかがわかることは多々あります．すなわち，$\F$の部分集合$\G \subset \F $に属する事象については起こったかどうかがわかる，ということです．このことを定式化します．

注意すべきこととして，一部の事象が起こったかどうかわかっているとき，集合演算を行なうことで他の事象についても起こったかどうかがわかることがあります．例えば，$A \in \F $について$\omega \in A $であるとわかれば，その補集合$A^{c} $も$\F$の要素 ($A^{c} \in \F $) なので，$\omega \notin A^{c} $であるとわかります． $A, B \in \F $について$\omega \in A, \omega \in B $だとわかれば，$A \cap B \in \F $についても$\omega \in A \cap B $であるといえるでしょう ($\F$は$\sigma$-加法族であるため，$A \cap B$のように (可算無限回の) 集合演算を行なっても$\F $の要素であることに注意します．)．

よって，試行を行なった結果の一部の情報$\G \subset \F$を知っているということを表現するのには，$\G $は単に$\F$の部分集合であるとするのでは不十分であり， $\G$は$\sigma$-加法族であるとしたほうが良いことがわかります．

これを踏まえて，試行を行なったときの結果の一部の情報$\G \subset \F$を知っているということを以下のように定義します． $「\omega \in \Omega $が選ばれたとき」という文言は「試行を行なったときにおいて」という意味だと思ってください．

定義1

$(\Omega, \F, P) $を確率空間，$\G \subset \F $を$\F$の部分$\sigma$-加法族とする． $\omega \in \Omega $が選ばれたとき，任意の$A \in \G$について$\omega \in A $であるか$\omega \notin A $であるかを決定できるなら， $\G(\omega) $を知っているという．

どの$\omega \in \Omega $が選ばれたかによって，各$A \in \G $に対して$\omega \in A $かどうかは変わるため， $\G(\omega)$のように$(\omega)$を付けて表しています．

さて，上の定義では$\G$は一般的な$\sigma$-加法族であるとしましたが，最も馴染みがある$\sigma$-加法族は，確率変数$\map{X}{\Omega}{\setR} $が生成する$\sigma$-加法族$\sigma(X) = \set{X^{-1}(B) \mid B \in \B(\setR)} $ではないでしょうか (これが$\sigma$-加法族であることは容易に確認できます)． $X $の値が$X(\omega) \in B $であるとわかれば，$\omega$は$\omega \in X^{-1}(B) $であるとわかるので，$\sigma(X) $は$X $を観測することで得られる情報を集めたものだと思われます．また，$X(\omega) $の値について最も詳しく知ることは，$X(\omega) $の値が$X(\omega) = x_0 $と一つの値に決定できることではないでしょうか．そのとき，もうこれ以上$X$を観測することで得られる情報はなさそうなので， $\sigma(X)(\omega) $を知ったということになってほしいですね．実際にこれは成り立ちます．

命題2

$(\Omega, \F, P) $を確率空間，$\map{X}{\Omega}{\setR} $を確率変数とする． $ \omega \in \Omega$が選ばれたとき，$\sigma(X)(\omega) $を知ることと$X(\omega) $の値を知ることは同値である．

証明

($\sigma(X)(\omega) $を知る$\implies $$X(\omega)$の値を知る)：集合族$\family{A}_{X} \subset \F$を$\family{A}_{X} = \set{X^{-1} (\set{x}) \mid x \in \setR } $とおくと$\family{A}_{X} \subset \sigma(X) $である ($\set{x} \in \B(\setR) \; (x \in \setR) $に注意)．さらに，$\family{A}_{X} $は$\Omega$の分割となっている．実際，$x, x' \in \setR, \; x \neq x' $に対して$X^{-1}(\set{x}) \cap X^{-1}(\set{x'}) = \eset $であり，$\bigcup_{x \in \setR} X^{-1}(\set{x}) = \Omega $である．いま，$\sigma(X)(\omega) $を知っているから，ただ一つの$x_0 \in \setR $が存在して$\omega \in X^{-1}(\set{x_0}) $であるとわかり，$x \in \setR, \; x \neq x_0 $に対しては$\omega \notin X^{-1}(\set{x}) $であるとわかる．よって$X(\omega) = x_0 $であり$X(\omega)$の値を知ることができた．
（$X(\omega)$の値を知る$\implies $$\sigma(X) $を知る）： $X(\omega) = x_0 $であるとする．このとき，$\omega \in X^{-1}(\set{x_0}) $であり，$x \in \setR, \; x \neq x_0$に対しては$\omega \notin X^{-1}(\set{x}) $である．
任意の$x \in \setR $に対して，$A \in \sigma(X) $であって$A \neq \eset$かつ$A $が$X^{-1}(\set{x}) $の真部分集合であるもの ($A \subsetneq X^{-1}(\set{x}) $) は存在しないことに注意する．実際，もしそのような$A \in \sigma(X)$が存在したとすると，$A' = X^{-1}(\set{x}) - A $とおくと$A' \in \sigma(X)$，$A' \neq \eset $，$A \cap A' = \eset$である． $A, A' \in \sigma(X) $であるから，ある$B, B' \in \B(\setR) $が存在して$A = X^{-1}(B) $，$A' = X^{-1}(B') $となる． $C = B \cap \set{x} $，$C' = B \cap \set{x} $とおくと，$X(A) \subset \set{x} $，$X(A') \subset \set{x} $より$A = X^{-1}(C) $，$A' = X^{-1}(C') $となる．いま$A, A\neq \eset $であるから$C , C' \neq \eset $すなわち$C = C' = \set{x} $となり，$A = X^{-1}(C) = X^{-1}(C') = A' $となって仮定に反する．
これより，任意の$x \in \setR$に対して，任意の$A \in \sigma(X) $は$X^{-1}(\set{x}) \subset A $または$X^{-1}(\set{x}) \cap A = \eset $のどちらかであることもわかる．実際，$X^{-1}(\set{x}) \not\subset A $かつ$X^{-1}(\set{x}) \cap A \neq \eset $であるとすると，$A' = X^{-1}(\set{x}) \cap A$とおくと$A' \in \sigma(X)$，$A' \neq \eset $，$A' \subsetneq X^{-1}(\set{x}) $となって上で述べたことに反する．
よって，任意の$A \in \sigma(X) $は$X^{-1}(\set{x_0}) \subset A $または$ X^{-1}(\set{x_0}) \cap A = \eset$であるから，$X^{-1}(\set{x_0}) \subset A$なら$\omega \in A$，$ X^{-1}(\set{x_0}) \cap A = \eset$なら$\omega \notin A $であると判定することで$\sigma(X)(\omega) $を知ることができた．

可測関数

前節で定義した，試行を行なったときに$\F$の部分$\sigma$-加法族$\G \subset \F$について知るという概念を用いると，確率変数が$\G$-可測であるということを明快に意味付けできます．

命題3

$(\Omega, \F, P) $を確率空間，$\map{Y}{\Omega}{\setR} $は$\G $-可測であるとする．いま，$\omega \in \Omega$が選ばれたとする．このとき，$ \G(\omega)$を知れば$Y(\omega) $の値を知ることができる．

証明

$Y$が$\G $-可測であるということはすなわち$\sigma(Y) \subset \G $であるということであり，いま$\G(\omega) $を知っているから，定義より$ \sigma(Y)(\omega) $も知っている．よって，命題2より$Y(\omega)$の値も知ることができる．

すなわち，$\G $-可測な確率変数$Y$とは，試行を行なったときに$\G$について知った時点で$Y$の値も確定する，という意味合いがあるのです．

条件付き期待値のきもち

以上で述べたことをもとに，条件付き期待値を考える動機と，その定義が動機に沿ったものであることを説明します．

条件付き期待値を考える動機

試行を行なって一部の情報$\G \subset \F $だけを得ているときに，まだ知らない確率変数$X $の値について何かしら情報を知りたいのではないでしょうか．知りたいですよね．例えば，現時刻$t_0$までにわかっている株価の情報$X_t \; (t \leq t_0 $)の値から，まだ知らない未来の株価$X_t \; (t > t_0) $を知ることができたら大儲けできそうです*2．そのために，条件付き確率や条件つき期待値という概念は必要となるのです．

なお，事象の確率は期待値の形で表せるので (事象$A \in \F$の確率$P(A) $は$A$の定義関数$1 _ {A}$を用いて$P(A) = E[1 _ {A}] $とかける)，より一般的な概念を表すためには条件付き期待値を考える方が便利です．

条件付き期待値の定義

それでは，いよいよ条件付き期待値の定義について見ていきましょう．先ほど述べたように，試行を行って$\G(\omega)$を知っているときに確率変数$X$の"期待値"を知りたい，というのが条件付き期待値を定義する動機です．

定義4 条件付き期待値

$(\Omega, \F, P) $を確率空間とし，$\map{X}{\Omega}{\setR} $は可積分な確率変数 ($E[\abs{X}] < \infty $)，$\G \subset \F $は$\sigma$-加法族とする．このとき，以下の条件を満たす確率変数$Y $が，a.s.の意味で一意に存在する．

$Y $は$\G$-可測．
任意の$A \in \G$に対して$E[Y, A] = E[X, A] $が成り立つ．

この$Y$を$\G$の下での$X$の条件付き期待値といい，$Y(\omega) = E[X | \G](\omega) \; (\omega \in \Omega) $とかく．

2つの条件について見ていきます．

【1つ目：$Y = E[X|\G]$は$\G$-可測】

確率変数$Y$が$\G$-可測であるということは，試行を行なったときに$\G(\omega)$を知れば$Y(\omega)$の値も確定するということでした．よって，$E[X|\G]$は，$\G(\omega)$という条件下での何らかの値を出すもの，だと思えます．

【2つ目：任意の$A \in \G$に対して$E[Y, A] = E[X, A]$】

1つ目の条件によって，$Y = E[X|\G] $は$\G(\omega)$の条件下での何らかの値を出すものだということがわかりました．その値が，$\G(\omega)$の条件下での$X$の期待値になっていることを保証するのが2つ目の条件です．

$\G$が簡単な場合を考えます． $A_1, \dots, A_n \in \F $を$\Omega $の有限分割とします．すなわち，

$\bigcup_{i=1}^n A_i = \Omega $
$i \neq j $なら$A_i \cap A_j = \eset $

とし，すべて$P(A_i) > 0 $であるとします． $\G $を，$A_1, \dots, A_n $が生成する$\sigma$-加法族$\G = \sigma(\set{A_1, \dots, A_n} ) $とします．

このとき，条件付き期待値は \begin{align} E [X | \G] (\omega) = \sum _ {i=1} ^ {n} E[X | A_i] 1 _ {A _ {i}}(\omega) \quad (\omega \in \Omega) \end{align} となります．ここで，右辺に出てくる$E[X | A_i] $は，素朴な意味での条件付き確率です．すなわち，素朴な意味での条件付き確率$P(B | A_i) = \frac{P(B \cap A_i)}{P(A_i)} \; (B \in \F) $が$B$について確率測度になるので，それを用いて $E[X | A_i] = \int_{\Omega} X(\omega) P(d\omega| A_i) = E[X, A_i]/P(A_i) $と定義されます． $E[X | A_i]$は$\omega \in A_i $であるとわかったときの$X$の期待値を表しています．なお，$E[X|\G] $が右辺で表されるのを示すのは定義に戻って確認すればいいので省略します．

$A_1, \dots, A_n $は$\Omega $の分割をなしていたので，$\G $の中で最も細かい集合になっています．すなわち，$\G(\omega) $を知ったとき，$\omega$が$A_1, \dots, A_n $のどれかに入っていることはわかっても，それ以上$\omega$についての情報を知ることはできません．この，$\G$の中で最も細かい集合$A_1, \dots, A_n$上で$X $の期待値を得ようとすれば，その値は$E[X | A_i] $とするのが良いでしょう．右辺の式は$A_i $上で定数$E[X|A_i] $を取るので，各$\omega \in \Omega $に対して右辺の値は$\G $で最も細かい集合上での$X $の条件付き期待値になっているのです．

一般の$\sigma$-加法族$\G$でも，分割をだんだん細かくしていったときの$\sigma$-加法族の極限のように捉えられるはずです*3．そのため，$Y = E[X | \G] $の定義に「任意の$A \in \G$に対して$E[Y, A] = E[X, A]$」という条件を付けておけば，有限分割のときと同様に，$E[X|\G] $の値が確定したときにはそれは$\G(\omega)$という条件下での$X$の期待値のようなものになっていると考えられます．

また，別の視点として，条件付き期待値$E[X|\G] $は，$\G$-可測確率変数の中で，$X$を$L ^ 2$ノルムの意味で最も良く近似する確率変数になっていることも挙げられます．すなわち，上のように定義した$E[X|\G] $は，$\G$-可測関数$Y$のうち$E[(X - Y) ^ 2] $を最小にするような$Y$に等しいのです (条件付き期待値の性質を使えばこれを示すのはそれほど難しくないです)．このことからしても$E[X | \G]$は$X$を期待値の意味で近似したものになっているといえるでしょう．

以上により，$E[X|\G] $は，試行を行って$\G(\omega)$を知っているときに，その状況下での確率変数$X$の期待値を与えてくれるものだということがわかりました．また，これで「条件付き期待値$E[X | \G] $は確率変数である」という，初めは何を言ってるんだかよくわからないことの意味もよくわかるのではないでしょうか．各$\omega \in \Omega $によって$\G(\omega) $の状況は違うので，$E[X | \G]$はそのときどきの$\omega$に応じた$X$の期待値を与えるということで確率変数なのです．

最後に，まとめとして，$\G$の下での$X$の条件付き期待値$E[X|\G] $の定義は，次のように読めます．

$Y = E [X | \G] $は$\G$-可測・・・試行を行なったときに，$\G(\omega)$を知れば$E [X | \G ](\omega)$の値は確定して，
任意の$A \in \G $に対して$E [Y, A] = E [X, A] $・・・その値は$\G(\omega)$という状況のもとでの$X$の期待値になっている．

まとめ

試行を行なったときに一部の情報$\G \subset \F $について知るという考えを説明しました．この考え方を使うと，確率変数が$\G $-可測であることは「$\G$について知ったときに値が確定する確率変数」という意味合いをもたせることができました．そして，条件付き期待値は，未知の確率変数を，現段階で得られている情報をもとに期待値の意味で最もよく近似するという性質を持った確率変数だと言えます．

なお，条件付き期待値のきもちがわかっても，じゃあ実際にどうやって具体的な確率変数としての式 (表記) を得るのか，という問題がまだ残っています．確率論の本では$E[X | \G]$という抽象的な形のままで扱うことが多いですが，実際の問題を扱うとき (統計や機械学習など) では具体的な式として表すことも重要です．また，具体的な表現方法を知ることで条件付き期待値の理解がより一層深まるかと思います．これについてはまた別の記事で書こうと思います．

参考文献

舟木直久，『確率論』，朝倉書店，2004．

この本は，有限分割から生成される$\sigma$-加法族については詳しく書かれているものの，一般の$\sigma$-加法族に対する条件付き期待値のイメージはあまり書かれていませんでした．

*1:例えば，$\Omega = \set{1, 2, 3, 4, 5, 6} $なら部分集合として$\set{1} $や$\set{4}$を考えられるので，簡単な有限集合の場合には各$\omega \in \Omega $に確率を与えることとほとんど同じです．その意味で，確率測度は，素朴な有限の場合の確率を上手に拡張しているといえます．

*2:私は株や投資のことはよく知らないので適当なイメージで書いてます．

*3:この文は舟木さんの本に書いてあることの受け売りです．

2020-12-26

大数の弱法則によるWeierstrassの多項式近似定理の証明

数学解析学確率論

はじめに

Weierstrassの多項式近似定理は「閉区間上の連続関数は多項式で十分に良く近似できる」という定理です．この定理は，連続だが至るところ微分不可能な関数の存在を示すのに使われたりします．

Weierstrassの多項式近似定理は多くの証明が知られていますが，本記事では大数の弱法則 (の考え方) による証明を紹介します．まず大数の弱法則を紹介し，次にWeierstrassの多項式近似定理を証明します．

$ \newcommand{\F}{\family{F} } \newcommand{\samplemean}[1]{\bar{#1} } \newcommand{\comb}[2]{{}_{#1}\mathrm{C}_{#2} } $

大数の弱法則

Weierstrassの多項式近似定理の証明で使う大数の弱法則の主張を述べ，証明します．

確率測度を$P$で表します．

定理1 大数の弱法則

$(X_n)_{n \in \setN} $を同分布にしたがう確率変数列とし，組ごとに独立であり ($i \neq j $に対して$X_i$と$X_j$は独立)，期待値$\mu = \meanE[X_1]$と分散$\sigma^2 = V(X_1)$が存在するとする：$\meanE[\abs{X_1}] < \infty$，$V(X_1) = \meanE[\abs{X_1 - \mu}^2 ] < \infty $． $\samplemean{X}_n = \frac{1}{n} \sum\limits_{i=1}^{n} X_i $とおく．このとき，任意の$\epsilon > 0 $に対して $$ \begin{align} \lim_{n \to \infty} P\Bigl(\abs{\samplemean{X}_n - \mu } \geq \epsilon \Bigr) = 0 \end{align} $$ が成り立つ．

大数の弱法則の証明にはChebyshevの不等式という不等式を用います．

命題2 Chebyshevの不等式

$X$を確率変数とすると，任意の$a > 0 $と$p > 0$に対して $$ \begin{align} P(\abs{X} \geq a ) \leq \frac{1}{a^p} \meanE[\abs{X}^p] \end{align} $$ が成り立つ．特に，$X$の期待値$\mu = \meanE[X]$が存在すれば，$p=2 $として上の不等式を用いて $$ \begin{align} P(\abs{X-\mu} \geq a ) \leq \frac{1}{a^2} \meanE\left[\abs{X - \mu}^2 \right] \end{align} $$ が成り立つ．

大数の弱法則の証明

Chebyshevの不等式より $$ \begin{align} P\Bigl(\abs{\samplemean{X}_n - \mu } \geq \epsilon \Bigr) \leq \frac{1}{\epsilon^2} \meanE\left[\abs{\samplemean{X}_n - \mu}^2 \right] \end{align} $$ であり， $$ \begin{align} \meanE\left[\abs{\samplemean{X}_n - \mu}^2 \right] &= \meanE\left[\abs{\frac{1}{n} \sum\limits_{i=1}^{n} X_i - \mu}^2 \right] \\ &= \meanE\left[\abs{\frac{1}{n} \sum\limits_{i=1}^{n} \left(X_i - \mu\right)}^2 \right] \\ &= \frac{1}{n^2}\left(\sum_{i=1}^n \meanE[(X_i - \mu)^2] + \sum_{i\neq j} \meanE[(X_i - \mu) (X_j - \mu) ] \right) \\ &= \frac{1}{n^2}\left(\sum_{i=1}^n V(X_i) + \sum_{i\neq j} \meanE[(X_i - \mu)]\meanE[(X_j - \mu)] \right) \\ &= \frac{1}{n^2}(n \sigma^2 + 0) = \frac{\sigma^2}{n} \end{align} $$ であるから ($X_i$と$X_j$が独立であることを用いた)， $$ \begin{align} P\Bigl(\abs{\samplemean{X}_n - \mu } \geq \epsilon \Bigr) \leq \frac{\sigma^2}{\epsilon^2} \cdot \frac{1}{n} \longrightarrow 0 \; (n \to \infty) \end{align} $$ となる．

Weierstrassの多項式近似定理

大数の弱法則 (の証明の論法) を用いてWeierstrassの多項式近似定理を証明します．

定理3 Weierstrassの多項式近似定理

$\map{f}{[0,1]}{\setR} $を連続関数とする．このとき，$f$に$[0, 1]$上一様収束する多項式の列が存在する．すなわち，多項式の列$(f_n)_{n \in \setN} $が存在して， $$ \begin{align} \lim_{n \to \infty} \sup_{x \in [0, 1]} \abs{f_n(x) - f(x) } = 0 \end{align} $$ となる．

証明では， $f$を近似するのに使われる多項式 *1$f_n(x) = \sum\limits _ {k=0}^n f \left(\frac{k}{n} \right) \comb{n}{k} x ^k (1-x)^{n-k}$が 2項分布$\mathrm{Bin}(n, x)$にしたがう確率変数$S_n $ ($P(S_n = k) = \comb{n}{k} x ^k (1-x)^{n-k} $となる確率変数) を用いて $f_n(x) = \meanE\left[f\left(\frac{S_n}{n}\right)\right] $と書けること， $S_n $はBernoulli分布$\mathrm{Be}(x)$にしたがう確率変数$X_1, X_2, \dots $ ($P(X_i = 1) = x, P(X_i = 0) = 1-x $) で$S_n = \sum\limits_{i=1}^n X_i $と書けるため大数の弱法則の論法を利用できること，をうまく用います．

証明

$n \in \setN $に対して，多項式$f_n$を $$ \begin{align} f_n(x) = \sum_{k=0}^n f\left(\frac{k}{n} \right) \comb{n}{k} x^k (1-x)^{n-k} \end{align} $$ で定める．
$p \in [0, 1] $とする． $(X_n)_{n \in \setN} $を，成功確率が$p$のBernoulli分布に独立にしたがう確率変数列，すなわち$P(X_n = 1) = p $，$P(X_n = 0) = 1-p $となる確率変数列とする． $S_n = \sum\limits_{i=1}^{n} X_i $とおく． $S_n $は$0, 1, \dots, n $の値を取りうる確率変数であり， $P(S_n = k) = \comb{n}{k} p^k (1-p)^{n-k} \; (k=0,1,\dots,n) $であるから， $$ \begin{align} \meanE\left[\frac{S_n}{n}\right] &= p, \\ \meanE\left[f\left(\frac{S_n}{n}\right)\right] &= \sum_{k=1}^n f\left(\frac{k}{n} \right) P(S_n = k) \\ &= \sum_{k=1}^n f\left(\frac{k}{n} \right) \comb{n}{k} p^k (1-p)^{n-k} \\ &= f_n(p) \end{align} $$ である．
$\epsilon > 0 $を任意にとる． $M = \sup\limits_{x \in [0,1]} f(x) $とおく．関数$f $は$[0, 1] $上連続であるから$[0, 1] $上一様連続である．よって，ある$\delta > 0$が存在して，任意の$x, y \in [0, 1] $に対して$\abs{x - y} < \delta $ならば$\abs{f(x) - f(y)} < \epsilon $となる． $A = \Set{\abs{\frac{S_n}{n} - \meanE\left[\frac{S_n}{n}\right]} < \delta } = \Set{\abs{\frac{S_n}{n} - p} < \delta } $とおく． Chebyshevの不等式より $$ \begin{align} P(A^{c}) &= P\left(\abs{\frac{S_n}{n} - p } \geq \delta \right) \\ &\leq \frac{1}{n \delta^2} V(X_1) = \frac{1}{n \delta^2} p(1-p) \\ &\leq \frac{1}{4n \delta^2} \end{align} $$ となる．最後の不等号では$p(1-p) = - (p-\frac{1}{2})^2 + \frac{1}{4} \leq \frac{1}{4} $であることを用いた． $Y= f\left(\frac{S_n}{n}\right) - f(p) $とおくと， $$ \begin{align} \abs{f_n(p) - f(p) } &= \abs{\meanE\left[f\left(\frac{S_n}{n}\right)\right] - f(p) } = \abs{\meanE\left[ Y \right] } \\ &\leq \meanE[\abs{Y} ] \\ &= \meanE[\abs{Y} , A] + \meanE[\abs{Y} , A^c] \end{align} $$ である． $A = \Set{\abs{\frac{S_n}{n} - p} < \delta }$上では$\abs{Y } = \abs{f\left(\frac{S_n}{n}\right) - f(p) } < \epsilon $であるから \begin{align*} \meanE[\abs{Y}, A ] \leq \meanE[\epsilon, A ] \leq \meanE[\epsilon] = \epsilon \end{align*} であり， $\abs{Y} = \abs{f\left(\frac{S_n}{n}\right) - f(p) } \leq \abs{f(\frac{S_n}{n})} + \abs{f(p)} \leq M + M = 2M $より $$ \begin{align} \meanE[\abs{Y}, A^c ] \leq \meanE[2M, A^c ] = 2M P(A^c) \leq \frac{M}{2n\delta^2} \end{align} $$ であるから， $$ \begin{align} \abs{f_n(p) - f(p) } \leq \meanE[\abs{Y} , A] + \meanE[\abs{Y} , A^c] \leq \epsilon + \frac{M}{2n\delta^2} \end{align} $$ となる．最右辺は$p \in [0, 1]$に依らないから $$ \begin{align} \sup_{p \in [0, 1]}\abs{f_n(p) - f(p) } \leq \epsilon + \frac{M}{2n\delta^2} \end{align} $$ であり，$n$を十分大きくとれば$\frac{M}{2n\delta^2} \leq \epsilon $とできるから，十分大きい$n$で $$ \begin{align} \sup_{p \in [0, 1]}\abs{f_n(p) - f(p) } \leq 2\epsilon \end{align} $$ となる．したがって$\lim\limits_{n \to \infty} \sup\limits_{x \in [0, 1]} \abs{f_n(x) - f(x) } = 0$であることが示された．

途中，大数の弱法則をそのまま用いて$P(A ^c) = P\left(\abs{\frac{S_n}{n} - p } \geq \delta \right) \to 0 \; (n \to \infty) $としなかったのは，収束の速さが$p$に依らないことを示すためです．大数の弱法則の証明の論法と同様にして$P(A ^c) \leq \frac{1}{n \delta ^2} V(X_1) \leq \frac{1}{4n \delta ^2}$を示すことで$p$に依らずに収束することがわかります． $X_1 $の分散$V(X_1) = p(1-p) $が$p$に依らずに$\frac{1}{4}$で上から抑えられることが効いていますね．

参考文献

舟木直久，『確率論』，朝倉書店，2004．

*1:この多項式は ($f$の) Bernstein多項式と呼ばれます．

2020-10-19

正則行列の極形式表示

数学線形代数

はじめに

正則行列は複素数の極形式のように表すことができます。行列と複素数は似ているねという話です。

$ \newcommand{\A}{\bmat{A}} \newcommand{\bTheta}{\bmat{\Theta}} \newcommand{\R}{\bmat{R}} \newcommand{\B}{\bmat{B}} \newcommand{\D}{\bmat{D}} \newcommand{\P}{\bmat{P}} \newcommand{\U}{\bmat{U}} \newcommand{\H}{\bmat{H}} \newcommand{\I}{\bmat{I}} \newcommand{\x}{\bvec{x}} $

正則行列の極形式表示

命題1

任意の正則行列$\A \in \setCmat{n}{n} $に対して、正定値エルミート行列$\R \in \setCmat{n}{n} $とエルミート行列$\bTheta \in \setCmat{n}{n} $が存在して $$ \begin{aligned} \A = \R \exp(i\bTheta) \end{aligned} $$ と表すことができる。ここで、$i = \sqrt{-1}$は虚数単位を表す。また、$\R$の存在は一意的である。

これは複素数の極形式とよく似ています。

複素数$z \in \setC$、$z \neq 0$は実数$r > 0 $と$\theta \in \setR $を用いて$z = r e^{i \theta} $と極形式で表示できます。 ($r = |z|$は一意に定まりますが、$e^{i(\theta + 2k\pi)} = e^{i\theta}$ ($k \in \setZ$) であるので$\theta$には自由度があります。)

上の命題から、正則行列についても複素数の極形式と同じように表示できることがわかり、行列と複素数が類似しているといえます。 $\A $ が正則であることは、$z \neq 0 $、すなわち逆元をもつことと似ています。随伴行列は複素数における共役複素数に相当する概念だと考えると、エルミート行列$\H $は$\H^{\adjoint} = \H $が成り立つから、複素数でいえば複素共役をとっても変わらないことに対応し、エルミート行列は複素数における実数のようになっています。また、正定値エルミート行列$\H \succeq 0 $は正の実数に対応しているといえます。 $\A = \R \exp(i\bTheta)$という表示は、$\R \succeq 0 $が$\A$の絶対値のようなものであり、$\exp(i\bTheta)$が偏角を表す部分のようなものであるといえますね。

(行列指数関数や正定値行列を知らない人のための補足)
行列の指数関数は$\exp(\A) = \lim\limits _ {N \to \infty} \sum\limits _ {k=0}^{N} \frac{1}{k!} \boldsymbol{A}^k $で定義されます。行列の極限$\lim\limits _ {N \to \infty} \B _ N = \B $は $\B _ N $の各成分が$\B $の対応する成分に収束することを表します。

エルミート行列$\H \in \setCmat{n}{n} $が正定値であるとは、任意の$\x \in \setCvec{n} $、$\x \neq \zerovec $に対して$ (\H\x, \x)_{\setCvec{n}} = \x^{\adjoint} \H \x > 0 $が成り立つことをいいます。エルミート行列$\H $が正定値であることと$\H$の固有値がすべて正であることは同値です。

証明

上の命題を示すためにいくつか命題を示します。

命題2

任意の正則行列$\A \in \setCmat{n}{n} $に対して、正定値エルミート行列$\H \in \setCmat{n}{n}$とユニタリ行列$\U \in \setCmat{n}{n}$が一意に存在して $$ \begin{align} \A = \H \U \end{align} $$ と表すことができる。

証明

$\A \A^{\adjoint} $は正定値エルミート行列である。実際、$(\A\A^{\adjoint})^{\adjoint} = \A\A^{\adjoint}$であり、任意の$\x \in \setCvec{n} $、$\x \neq \zerovec $に対して $\x^{\adjoint} (\A \A^{\adjoint}) \x = (\A^{\adjoint} \x)^{\adjoint} (\A^{\adjoint} \x) = \norm{ \A^{\adjoint} \x }^2 > 0$である ($\A^{\adjoint} $は正則行列であるから$\x \neq \zerovec $ならば$\A^{\adjoint}\x \neq \zerovec$であることに注意)。よって、その平方根$\H = \sqrt{\A\A^{\adjoint}} $をとることができる。 $\H $は正定値エルミート行列である。
このとき、$\U = \H^{-1} \A $とおくと、$ \U$はユニタリ行列である。実際、 $\U\U^{\adjoint} = \H^{-1} \A \A^{\adjoint} \H^{-1} = \H^{-1} \H^2 \H^{-1} = \I $である。よって$\A = \H\U $と表すことができた。
$\H$と$\U$の一意性の証明は省略。

この証明からも$\A = \H\U$は複素数の極形式と類似していることがよくわかります。 $\H = \sqrt{\A\A^{\adjoint}} $は複素数の絶対値$|z| = \sqrt{z \bar{z}} $と似ており、$\U = \H^{-1} \A $は複素数を絶対値で割って偏角部分だけを取り出すことと似ています ($e^{i\theta} = \frac{z}{|z|} $)。

命題3

任意のユニタリ行列$\U \in \setCmat{n}{n} $に対し、エルミート行列$\H \in \setCmat{n}{n} $が存在して$\U = \exp(i\H) $と表すことができる。

証明

ユニタリ行列$\U $の固有値はすべて絶対値が$1$の複素数である。実際、$\lambda \in \setC $を$\U$の固有値、$\x \in \setCvec{n} $ ($\x \neq \zerovec$) を対応する固有ベクトルとすると、 $\abs{\lambda} \norm{\x} = \norm{\lambda \x} = \norm{\U\x } = \norm{\x} $であるから$\norm{\x} \neq 0 $で割って$\abs{\lambda} = 1 $となる。
よって、$\U $の固有値は、実数$\theta_1, \theta_2, \dots, \theta_n \in \setR $を用いて$e^{i\theta_1}, e^{i\theta_2}, \dots, e^{i\theta_n} $と表すことができる。 $\U $をユニタリ行列$\P \in \setCmat{n}{n} $を用いて $\P^{\adjoint} \U \P = \D = \diag(e^{i\theta_1}, e^{i\theta_2}, \dots, e^{i\theta_n}) $ *1と対角化する。 $\D = \exp(i \diag(\theta_1,\theta_2, \dots, \theta_n )) $であるから、 $\bTheta = \diag(\theta_1, \theta_2, \dots, \theta_n) $とおくと$\D = \exp(i \bTheta)$であり $\U = \P \exp(i \bTheta) \P^{\adjoint} = \exp(i \P \bTheta \P^{\adjoint}) $となる。
ゆえに、$\H = \P \bTheta \P^{\adjoint} $とおくと$\H$はエルミート行列であり$\U = \exp(i \H) $となる。

この命題から、ユニタリ行列 $\U$ は、絶対値が$1$の複素数のようなものだといえます。ユニタリ行列は回転を表す行列であるという点でも絶対値が$1$の複素数に似ています。

この2つの命題から冒頭の命題はすぐに得られます。

冒頭の命題の証明

命題2と命題3からしたがう。

おわりに

正則行列を複素数の極形式のように表示できることを紹介しました。行列と複素数が類似していて面白いですね。

参考文献

斎藤正彦、線型代数入門、東京大学出版会、1966。
長谷川浩司、線型代数[改訂版]、日本評論社、2015。

*1:$\diag(a_1, a_2, \dots, a_n) \in \setCmat{n}{n}$は、対角成分が左上から$a_1, a_2, \dots, a_n$であり、その他の成分が$0$である対角行列を表す。

2020-07-02

Banach空間の特徴づけを用いたLp空間の完備性の証明

数学解析学関数解析

$L^ p$空間の完備性を，Banach空間の特徴づけをメインに使って示したい話です．

$L^ p$空間はBanach空間，すなわち完備なノルム空間ですが，本で見かける完備性の証明は少し技巧的に見えます（私にとっては）．しかし，証明をよく見てみると，一般のBanach空間で通用する部分と$L^ p$空間に特有な部分があって，それらが入り混じっているために何をやっているかがわかりにくく技巧的に見えるのかなと思いました．そこで，この記事ではBanach空間の特徴づけ（ノルム空間の完備性の特徴づけ）を紹介したあと，それを使って$L^ p$空間の完備性を示します．こうすることで証明の道筋がわかりやすくなるかと思います．

初めての記事ということでここにちゃんと書きたかったのですが，MathJaxを使いこなすのが面倒だったのとすでにPDFにはまとめてあったのでPDFを貼ることにします．次からは記事内に記述していきたいです．

2020-06-30

おはようございます

日記

はじめまして．
ブログを作ってみました．

このブログでは，文章の練習を兼ねて，私が興味をもったこと，面白いと思ったこと，文章として残しておきたいと思ったことを書いていこうと思います．特に数学が好きなので数学のことをたくさん書いていきたいです．ただ，数学を専門に学んでいるわけではないので，誤り等があればご指摘いただけると幸いです．

どうぞよろしくお願いいたします．