Link

5. 統計的推定

これまでに準備した統計的推測の枠組みを用いて,統計的推測の具体的な方法を考える.まず統計的推測の一般的な考え方について触れ,データ(情報)の縮約に関する概念である十分統計量(Sufficient statistics)を導入する.次に点推定について述べる.点推定とは「母分布の特性値(平均や分散)を標本データに基づき言い当てる問題」である.点推定量を求める具体的な計算方法として,最尤推定MAP推定ベイズ推定を紹介する.


5.1 統計的推測

「母集団から標本を抽出して,母集団の確率分布や確率モデルについて推測を行うこと」が統計的推測の基本的な考え方である.統計的推測には、目的に応じて「点推定」「区間推定」「仮説検定」「回帰/予測」などがある.

統計的推測(Statistical inference)

  • 点推定(Point estimation)
    • 母数\(\theta\) の値を,標本\(\{X_1, \dots, X_n\}\) から求めること.
  • 区間推定(Interval estimation)
    • 母数\(\theta\) が入っている信頼性の高い区間を,標本\(\{X_1, \dots, X_n\}\) から求めること.
  • 仮説検定(Statisical hypothesis testing)
    • 母数\(\theta\) に関する仮説が正しいか否かを,標本\(\{X_1, \dots, X_n\}\) から判定すること.
  • 回帰/予測(Regression/Prediction)
    • 母分布\(p(\cdot \vert \theta)\)に従う確率変数\(X\)の新しい実現値\(x\)を,標本\(\{X_1, \dots, X_n\}\) から求めること.

ここで,統計的推測を行う場合,「推定値の信頼性」「推定の際に生ずる誤差をどう見積もるか」を常に意識する必要がある.


なお,統計的推測に関する多くの方法は,パラメトリックモデルを対象としている.

  1. パラメトリックモデル(Parametric model)

    • 確率変数\(X\)の母分布を\(p(x \vert \theta)\)とおき,既知の関数\(p(\cdot \vert \cdot)\)と未知の母数\(\theta\) で,母分布を表現する確率モデル.点推定によって,パラメータ\(\theta\)の値を決定できる.
  2. ノンパラメトリックモデル(Non-parametric model)

    • 確率変数\(X\)の母分布\(p(x)\)の関数系が特定されていない確率モデル.


十分統計量

未知母数\(\theta\) で表現される確率分布\(p(x \vert \theta)\) に従う確率変数\(X\)に対して,標本\(X^n := \{ X_1, \dots, X_n \}\) とその実現値 \(x^n := \{ x_1, \dots, x_n \}\) を考える.このとき,統計量\(T(X^n) = t(X_1, \dots, X_n)\) が未知母数\(\theta\) に対して十分統計量(Sufficient statistics)であるとは,任意の\(x^n, t\) に対して,条件つき確率\(P(X^n = x^n \vert T(X^n) = t)\) が\(\theta\)に依存しないことをいう.

すなわち,統計量\(T(X^n)\) が\(\theta\) に関する十分統計量であるとは,

  • 「標本\(X^n\) が持っている\(\theta\) に関する情報」
  • 「統計量\(T(X^n)\) が持っている\(\theta\) に関する情報」

が等しいことを意味する.


5.2 点推定量の導出

点推定(Point estimation)とは,「母分布の特性値(平均や分散)を標本データに基づき言い当てること」である.以下では,パラメトリックモデル\(p(x \vert {\boldsymbol \theta}) := p(x \vert \theta_1, \dots, \theta_k)\)を想定し,未知母数\({\boldsymbol \theta} := (\theta_1, \dots, \theta_k)\)をランダムサンプル\({\bf X} := (X_1, \dots, X_n )\) に基づいて点推定する問題を考える.


最尤推定(Maximum likelihood estimation, MLE)

モデル\(p(x \vert {\boldsymbol \theta})\) を用いて測った ,ランダムサンプル\({\bf X} := (X_1, \dots, X_n )\) の同時確率は次式のように表せる.

\[L({\boldsymbol \theta} \vert {\bf X}) := \prod_{i=1}^{n} p(X_i \vert {\boldsymbol \theta})\]

ランダムサンプル\({\bf X} := (X_1, \dots, X_n )\) は観測値であり定数だから,これはパラメータ\(\boldsymbol \theta\) の関数となる.このとき,\(L({\boldsymbol \theta} \vert {\bf X})\)を尤度関数(Likelihood function)という.また,その対数変換

\[\ell({\boldsymbol \theta} \vert {\bf X}) := \sum_{i=1}^{n} \log p(X_i \vert \theta)\]

対数尤度関数(Log-likelihood function)という.このとき,尤度関数あるいは対数尤度関数を最大にするパラメータの値\(\hat{\theta}_{MLE}\) を最尤推定量という.

\[\hat{\boldsymbol \theta}_{MLE} := \underset{\boldsymbol \theta}{\rm argmax} ~ L({\boldsymbol \theta} \vert {\boldsymbol X})\]

なお,尤度関数\(L({\boldsymbol \theta} \vert {\bf X})\) あるいは対数尤度関数\(\ell({\boldsymbol \theta} \vert {\bf X})\)に対して,方程式:

\[\frac{\partial}{\partial \theta_i} L({\boldsymbol \theta} \vert {\bf X}) = 0 ~~~ (i = 1, \dots, k) \\ \frac{\partial}{\partial \theta_i} \ell({\boldsymbol \theta} \vert {\bf X}) = 0 ~~~ (i = 1, \dots, k)\]

の解が\(\hat{\boldsymbol \theta}_{MLE}\)の候補となるため.多くの場合コンピュータによって数値的に導出可能である.


事後確率最大化推定(Maximum a posteriori estimation, MAPE)

MAP推定ともいう.モデル\(p(x \vert {\bf \theta})\) に対して,パラメータ\(\boldsymbol \theta\) の確率分布として\(\pi(\boldsymbol \theta)\)を想定すると,ベイズの定理より次式が成り立つ.

ここで,\(p({\bf \theta} \vert {\bf X})\) を「パラメータ\(\theta\) の事後分布」, \(\pi(\boldsymbol \theta)\) を「パラメータ\(\boldsymbol \theta\) の事前分布」という.パラメータ\(\theta\) の事後確率\(p({\bf \theta} \vert {\bf X})\) の値は,確率モデル\(p(\cdot \vert {\boldsymbol \theta} )\) と事前分布\(\pi(\boldsymbol \theta)\) を用いて測ったデータサンプル\({\bf X} := (X_1, \dots, X_n )\) の確からしさ(尤もらしさ)を示す.

このとき,事後確率\(p({\bf \theta} \vert {\bf X})\)を最大にするパラメータの値\(\hat{\theta}_{MAP}\) を最尤推定量という.

\[\hat{\boldsymbol \theta}_{MAP} := \underset{\boldsymbol \theta}{\rm argmax} ~ p({\boldsymbol \theta} \vert {\boldsymbol X})\]


[演習問題]

\(X_1, \dots, X_n i.i.d. \sim \mathcal{N}(0, \sigma^2)\)に従うとする.\(\sigma^2\)の最尤推定量を求めよ.