大数の弱法則によるWeierstrassの多項式近似定理の証明
はじめに
Weierstrassの多項式近似定理は「閉区間上の連続関数は多項式で十分に良く近似できる」という定理です. この定理は,連続だが至るところ微分不可能な関数の存在を示すのに使われたりします.
Weierstrassの多項式近似定理は多くの証明が知られていますが, 本記事では大数の弱法則 (の考え方) による証明を紹介します. まず大数の弱法則を紹介し,次にWeierstrassの多項式近似定理を証明します.
大数の弱法則
Weierstrassの多項式近似定理の証明で使う大数の弱法則の主張を述べ,証明します.
確率測度を$P$で表します.
大数の弱法則の証明にはChebyshevの不等式という不等式を用います.
Weierstrassの多項式近似定理
大数の弱法則 (の証明の論法) を用いてWeierstrassの多項式近似定理を証明します.
証明では, $f$を近似するのに使われる多項式*1$f_n(x) = \sum\limits _ {k=0}^n f \left(\frac{k}{n} \right) \comb{n}{k} x ^k (1-x)^{n-k}$が 2項分布$\mathrm{Bin}(n, x)$にしたがう確率変数$S_n $ ($P(S_n = k) = \comb{n}{k} x ^k (1-x)^{n-k} $となる確率変数) を用いて $f_n(x) = \meanE\left[f\left(\frac{S_n}{n}\right)\right] $と書けること, $S_n $はBernoulli分布$\mathrm{Be}(x)$にしたがう確率変数$X_1, X_2, \dots $ ($P(X_i = 1) = x, P(X_i = 0) = 1-x $) で$S_n = \sum\limits_{i=1}^n X_i $と書けるため大数の弱法則の論法を利用できること,をうまく用います.
$p \in [0, 1] $とする. $(X_n)_{n \in \setN} $を,成功確率が$p$のBernoulli分布に独立にしたがう確率変数列,すなわち$P(X_n = 1) = p $,$P(X_n = 0) = 1-p $となる確率変数列とする. $S_n = \sum\limits_{i=1}^{n} X_i $とおく. $S_n $は$0, 1, \dots, n $の値を取りうる確率変数であり, $P(S_n = k) = \comb{n}{k} p^k (1-p)^{n-k} \; (k=0,1,\dots,n) $であるから, $$ \begin{align} \meanE\left[\frac{S_n}{n}\right] &= p, \\ \meanE\left[f\left(\frac{S_n}{n}\right)\right] &= \sum_{k=1}^n f\left(\frac{k}{n} \right) P(S_n = k) \\ &= \sum_{k=1}^n f\left(\frac{k}{n} \right) \comb{n}{k} p^k (1-p)^{n-k} \\ &= f_n(p) \end{align} $$ である.
$\epsilon > 0 $を任意にとる. $M = \sup\limits_{x \in [0,1]} f(x) $とおく. 関数$f $は$[0, 1] $上連続であるから$[0, 1] $上一様連続である. よって,ある$\delta > 0$が存在して,任意の$x, y \in [0, 1] $に対して$\abs{x - y} < \delta $ならば$\abs{f(x) - f(y)} < \epsilon $となる. $A = \Set{\abs{\frac{S_n}{n} - \meanE\left[\frac{S_n}{n}\right]} < \delta } = \Set{\abs{\frac{S_n}{n} - p} < \delta } $とおく. Chebyshevの不等式より $$ \begin{align} P(A^{c}) &= P\left(\abs{\frac{S_n}{n} - p } \geq \delta \right) \\ &\leq \frac{1}{n \delta^2} V(X_1) = \frac{1}{n \delta^2} p(1-p) \\ &\leq \frac{1}{4n \delta^2} \end{align} $$ となる. 最後の不等号では$p(1-p) = - (p-\frac{1}{2})^2 + \frac{1}{4} \leq \frac{1}{4} $であることを用いた. $Y= f\left(\frac{S_n}{n}\right) - f(p) $とおくと, $$ \begin{align} \abs{f_n(p) - f(p) } &= \abs{\meanE\left[f\left(\frac{S_n}{n}\right)\right] - f(p) } = \abs{\meanE\left[ Y \right] } \\ &\leq \meanE[\abs{Y} ] \\ &= \meanE[\abs{Y} , A] + \meanE[\abs{Y} , A^c] \end{align} $$ である. $A = \Set{\abs{\frac{S_n}{n} - p} < \delta }$上では$\abs{Y } = \abs{f\left(\frac{S_n}{n}\right) - f(p) } < \epsilon $であるから \begin{align*} \meanE[\abs{Y}, A ] \leq \meanE[\epsilon, A ] \leq \meanE[\epsilon] = \epsilon \end{align*} であり, $\abs{Y} = \abs{f\left(\frac{S_n}{n}\right) - f(p) } \leq \abs{f(\frac{S_n}{n})} + \abs{f(p)} \leq M + M = 2M $より $$ \begin{align} \meanE[\abs{Y}, A^c ] \leq \meanE[2M, A^c ] = 2M P(A^c) \leq \frac{M}{2n\delta^2} \end{align} $$ であるから, $$ \begin{align} \abs{f_n(p) - f(p) } \leq \meanE[\abs{Y} , A] + \meanE[\abs{Y} , A^c] \leq \epsilon + \frac{M}{2n\delta^2} \end{align} $$ となる. 最右辺は$p \in [0, 1]$に依らないから $$ \begin{align} \sup_{p \in [0, 1]}\abs{f_n(p) - f(p) } \leq \epsilon + \frac{M}{2n\delta^2} \end{align} $$ であり,$n$を十分大きくとれば$\frac{M}{2n\delta^2} \leq \epsilon $とできるから,十分大きい$n$で $$ \begin{align} \sup_{p \in [0, 1]}\abs{f_n(p) - f(p) } \leq 2\epsilon \end{align} $$ となる. したがって$\lim\limits_{n \to \infty} \sup\limits_{x \in [0, 1]} \abs{f_n(x) - f(x) } = 0$であることが示された.
途中, 大数の弱法則をそのまま用いて$P(A ^c) = P\left(\abs{\frac{S_n}{n} - p } \geq \delta \right) \to 0 \; (n \to \infty) $としなかったのは,収束の速さが$p$に依らないことを示すためです. 大数の弱法則の証明の論法と同様にして$P(A ^c) \leq \frac{1}{n \delta ^2} V(X_1) \leq \frac{1}{4n \delta ^2}$を示すことで$p$に依らずに収束することがわかります. $X_1 $の分散$V(X_1) = p(1-p) $が$p$に依らずに$\frac{1}{4}$で上から抑えられることが効いていますね.
参考文献
- 舟木直久,『確率論』,朝倉書店,2004.