\( \newcommand{\setR}{\mathbb{R}} \newcommand{\setRvec}[1]{\mathbb{R}^{#1}} \newcommand{\setRmat}[2]{\mathbb{R}^{#1 \times #2}} \newcommand{\setC}{\mathbb{C}} \newcommand{\setCvec}[1]{\mathbb{C}^{#1}} \newcommand{\setCmat}[2]{\mathbb{C}^{#1 \times #2}} \newcommand{\setN}{\mathbb{N}} \newcommand{\setZ}{\mathbb{Z}} \newcommand{\setQ}{\mathbb{Q}} \newcommand{\setK}{\mathbb{K}} \newcommand{\setF}{\mathbb{F}} \newcommand{\setX}{\mathbb{X}} \newcommand{\setY}{\mathbb{Y}} \newcommand{\bvec}[1]{\boldsymbol{#1}} \newcommand{\bmat}[1]{\boldsymbol{#1}} \newcommand{\zerovec}{\boldsymbol{0}} \newcommand{\zeromat}{\boldsymbol{O}} \newcommand{\adjoint}{\ast} \newcommand{\inner}[2]{(#1, #2)} \newcommand{\Inner}[2]{\left( #1, #2\right)} \newcommand{\floor}[1]{\lfloor #1 \rfloor} \newcommand{\Floor}[1]{\left\lfloor #1 \right\rfloor} \newcommand{\ceil}[1]{\lceil #1 \rceil} \newcommand{\Ceil}[1]{\left\lceil #1 \right\rceil} \DeclareMathOperator{\diag}{diag} \DeclareMathOperator{\sgn}{sgn} \newcommand{\argmin}{\mathop{\mathrm{arg~min}}} \newcommand{\argmax}{\mathop{\mathrm{arg~max}}} \newcommand{\map}[3]{#1 \colon #2 \to #3} \newcommand{\rstmap}[2]{\left. {#1}\right| _{#2}} \newcommand{\eset}{\varnothing} \newcommand{\quotset}[2]{#1 / {#2}} \newcommand{\power}[1]{\mathcal{P}(#1)} \newcommand{\closure}[1]{\overline{#1}} \newcommand{\interior}[1]{{#1}^{\circ}} \newcommand{\family}[1]{\mathcal{#1}} \newcommand{\meanE}{\mathbb{E}} \newcommand{\probP}{\mathbb{P}} \)

大数の弱法則によるWeierstrassの多項式近似定理の証明

はじめに

Weierstrassの多項式近似定理は「閉区間上の連続関数は多項式で十分に良く近似できる」という定理です. この定理は,連続だが至るところ微分不可能な関数の存在を示すのに使われたりします.

Weierstrassの多項式近似定理は多くの証明が知られていますが, 本記事では大数の弱法則 (の考え方) による証明を紹介します. まず大数の弱法則を紹介し,次にWeierstrassの多項式近似定理を証明します.

\( \newcommand{\F}{\family{F} } \newcommand{\samplemean}[1]{\bar{#1} } \newcommand{\comb}[2]{{}_{#1}\mathrm{C}_{#2} } \)

大数の弱法則

Weierstrassの多項式近似定理の証明で使う大数の弱法則の主張を述べ,証明します.

確率測度を$P$で表します.

$(X_n)_{n \in \setN} $を同分布にしたがう確率変数列とし,組ごとに独立であり ($i \neq j $に対して$X_i$と$X_j$は独立), 期待値$\mu = \meanE[X_1]$と分散$\sigma^2 = V(X_1)$が存在するとする:$\meanE[\abs{X_1}] < \infty$,$V(X_1) = \meanE[\abs{X_1 - \mu}^2 ] < \infty $. $\samplemean{X}_n = \frac{1}{n} \sum\limits_{i=1}^{n} X_i $とおく. このとき,任意の$\epsilon > 0 $に対して $$ \begin{align} \lim_{n \to \infty} P\Bigl(\abs{\samplemean{X}_n - \mu } \geq \epsilon \Bigr) = 0 \end{align} $$ が成り立つ.

大数の弱法則の証明にはChebyshevの不等式という不等式を用います.

命題2 Chebyshevの不等式
$X$を確率変数とすると, 任意の$a > 0 $と$p > 0$に対して $$ \begin{align} P(\abs{X} \geq a ) \leq \frac{1}{a^p} \meanE[\abs{X}^p] \end{align} $$ が成り立つ. 特に,$X$の期待値$\mu = \meanE[X]$が存在すれば,$p=2 $として上の不等式を用いて $$ \begin{align} P(\abs{X-\mu} \geq a ) \leq \frac{1}{a^2} \meanE\left[\abs{X - \mu}^2 \right] \end{align} $$ が成り立つ.
Chebyshevの不等式より $$ \begin{align} P\Bigl(\abs{\samplemean{X}_n - \mu } \geq \epsilon \Bigr) \leq \frac{1}{\epsilon^2} \meanE\left[\abs{\samplemean{X}_n - \mu}^2 \right] \end{align} $$ であり, $$ \begin{align} \meanE\left[\abs{\samplemean{X}_n - \mu}^2 \right] &= \meanE\left[\abs{\frac{1}{n} \sum\limits_{i=1}^{n} X_i - \mu}^2 \right] \\ &= \meanE\left[\abs{\frac{1}{n} \sum\limits_{i=1}^{n} \left(X_i - \mu\right)}^2 \right] \\ &= \frac{1}{n^2}\left(\sum_{i=1}^n \meanE[(X_i - \mu)^2] + \sum_{i\neq j} \meanE[(X_i - \mu) (X_j - \mu) ] \right) \\ &= \frac{1}{n^2}\left(\sum_{i=1}^n V(X_i) + \sum_{i\neq j} \meanE[(X_i - \mu)]\meanE[(X_j - \mu)] \right) \\ &= \frac{1}{n^2}(n \sigma^2 + 0) = \frac{\sigma^2}{n} \end{align} $$ であるから ($X_i$と$X_j$が独立であることを用いた), $$ \begin{align} P\Bigl(\abs{\samplemean{X}_n - \mu } \geq \epsilon \Bigr) \leq \frac{\sigma^2}{\epsilon^2} \cdot \frac{1}{n} \longrightarrow 0 \; (n \to \infty) \end{align} $$ となる.

Weierstrassの多項式近似定理

大数の弱法則 (の証明の論法) を用いてWeierstrassの多項式近似定理を証明します.

定理3 Weierstrassの多項式近似定理
$\map{f}{[0,1]}{\setR} $を連続関数とする. このとき,$f$に$[0, 1]$上一様収束する多項式の列が存在する. すなわち,多項式の列$(f_n)_{n \in \setN} $が存在して, $$ \begin{align} \lim_{n \to \infty} \sup_{x \in [0, 1]} \abs{f_n(x) - f(x) } = 0 \end{align} $$ となる.

証明では, $f$を近似するのに使われる多項式*1$f_n(x) = \sum\limits _ {k=0}^n f \left(\frac{k}{n} \right) \comb{n}{k} x ^k (1-x)^{n-k}$が 2項分布$\mathrm{Bin}(n, x)$にしたがう確率変数$S_n $ ($P(S_n = k) = \comb{n}{k} x ^k (1-x)^{n-k} $となる確率変数) を用いて $f_n(x) = \meanE\left[f\left(\frac{S_n}{n}\right)\right] $と書けること, $S_n $はBernoulli分布$\mathrm{Be}(x)$にしたがう確率変数$X_1, X_2, \dots $ ($P(X_i = 1) = x, P(X_i = 0) = 1-x $) で$S_n = \sum\limits_{i=1}^n X_i $と書けるため大数の弱法則の論法を利用できること,をうまく用います.

証明
$n \in \setN $に対して,多項式$f_n$を $$ \begin{align} f_n(x) = \sum_{k=0}^n f\left(\frac{k}{n} \right) \comb{n}{k} x^k (1-x)^{n-k} \end{align} $$ で定める.
$p \in [0, 1] $とする. $(X_n)_{n \in \setN} $を,成功確率が$p$のBernoulli分布に独立にしたがう確率変数列,すなわち$P(X_n = 1) = p $,$P(X_n = 0) = 1-p $となる確率変数列とする. $S_n = \sum\limits_{i=1}^{n} X_i $とおく. $S_n $は$0, 1, \dots, n $の値を取りうる確率変数であり, $P(S_n = k) = \comb{n}{k} p^k (1-p)^{n-k} \; (k=0,1,\dots,n) $であるから, $$ \begin{align} \meanE\left[\frac{S_n}{n}\right] &= p, \\ \meanE\left[f\left(\frac{S_n}{n}\right)\right] &= \sum_{k=1}^n f\left(\frac{k}{n} \right) P(S_n = k) \\ &= \sum_{k=1}^n f\left(\frac{k}{n} \right) \comb{n}{k} p^k (1-p)^{n-k} \\ &= f_n(p) \end{align} $$ である.
$\epsilon > 0 $を任意にとる. $M = \sup\limits_{x \in [0,1]} f(x) $とおく. 関数$f $は$[0, 1] $上連続であるから$[0, 1] $上一様連続である. よって,ある$\delta > 0$が存在して,任意の$x, y \in [0, 1] $に対して$\abs{x - y} < \delta $ならば$\abs{f(x) - f(y)} < \epsilon $となる. $A = \Set{\abs{\frac{S_n}{n} - \meanE\left[\frac{S_n}{n}\right]} < \delta } = \Set{\abs{\frac{S_n}{n} - p} < \delta } $とおく. Chebyshevの不等式より $$ \begin{align} P(A^{c}) &= P\left(\abs{\frac{S_n}{n} - p } \geq \delta \right) \\ &\leq \frac{1}{n \delta^2} V(X_1) = \frac{1}{n \delta^2} p(1-p) \\ &\leq \frac{1}{4n \delta^2} \end{align} $$ となる. 最後の不等号では$p(1-p) = - (p-\frac{1}{2})^2 + \frac{1}{4} \leq \frac{1}{4} $であることを用いた. $Y= f\left(\frac{S_n}{n}\right) - f(p) $とおくと, $$ \begin{align} \abs{f_n(p) - f(p) } &= \abs{\meanE\left[f\left(\frac{S_n}{n}\right)\right] - f(p) } = \abs{\meanE\left[ Y \right] } \\ &\leq \meanE[\abs{Y} ] \\ &= \meanE[\abs{Y} , A] + \meanE[\abs{Y} , A^c] \end{align} $$ である. $A = \Set{\abs{\frac{S_n}{n} - p} < \delta }$上では$\abs{Y } = \abs{f\left(\frac{S_n}{n}\right) - f(p) } < \epsilon $であるから \begin{align*} \meanE[\abs{Y}, A ] \leq \meanE[\epsilon, A ] \leq \meanE[\epsilon] = \epsilon \end{align*} であり, $\abs{Y} = \abs{f\left(\frac{S_n}{n}\right) - f(p) } \leq \abs{f(\frac{S_n}{n})} + \abs{f(p)} \leq M + M = 2M $より $$ \begin{align} \meanE[\abs{Y}, A^c ] \leq \meanE[2M, A^c ] = 2M P(A^c) \leq \frac{M}{2n\delta^2} \end{align} $$ であるから, $$ \begin{align} \abs{f_n(p) - f(p) } \leq \meanE[\abs{Y} , A] + \meanE[\abs{Y} , A^c] \leq \epsilon + \frac{M}{2n\delta^2} \end{align} $$ となる. 最右辺は$p \in [0, 1]$に依らないから $$ \begin{align} \sup_{p \in [0, 1]}\abs{f_n(p) - f(p) } \leq \epsilon + \frac{M}{2n\delta^2} \end{align} $$ であり,$n$を十分大きくとれば$\frac{M}{2n\delta^2} \leq \epsilon $とできるから,十分大きい$n$で $$ \begin{align} \sup_{p \in [0, 1]}\abs{f_n(p) - f(p) } \leq 2\epsilon \end{align} $$ となる. したがって$\lim\limits_{n \to \infty} \sup\limits_{x \in [0, 1]} \abs{f_n(x) - f(x) } = 0$であることが示された.

途中, 大数の弱法則をそのまま用いて$P(A ^c) = P\left(\abs{\frac{S_n}{n} - p } \geq \delta \right) \to 0 \; (n \to \infty) $としなかったのは,収束の速さが$p$に依らないことを示すためです. 大数の弱法則の証明の論法と同様にして$P(A ^c) \leq \frac{1}{n \delta ^2} V(X_1) \leq \frac{1}{4n \delta ^2}$を示すことで$p$に依らずに収束することがわかります. $X_1 $の分散$V(X_1) = p(1-p) $が$p$に依らずに$\frac{1}{4}$で上から抑えられることが効いていますね.

参考文献

  • 舟木直久,『確率論』,朝倉書店,2004.

*1:この多項式は ($f$の) Bernstein多項式と呼ばれます.