Link

4. 標本分布とその近似

得られたデータから,確率分布の特性値(平均・分散など)に関して推定・検定・信頼区間・予測などの具体的な推測手法を与えて,その推測手法の信頼性を見積もることが統計的推測の目的である.しかし,手元にあるデータ自体は定まった値であり,これをどのように確率分布と関係づけるかが問題となる.そこで,推測統計学では母集団/母分布標本/標本分布という概念を導入することでこれを解決する.すなわち,母集団/母分布として適当な確率分布や確率モデルを仮定し,標本は母集団/母分布に従う確率変数,観測データは確率変数の実現値と考える.


4.1 統計量と標本分布

統計学は,目的に応じて記述統計と推測統計に分けることができる.

  • 記述統計(Descriptive statistics)
    • 目的:データからヒストグラム・箱ひげ図を描いたり,平均・分散などの要約統計量を計算して母集団の特性を調べる
  • 推測統計(Inferential statistics)
    • 目的:母集団に確率モデルを想定し,その確率分布に従う確率変数の実現値としてデータをとらえる.

img


ここで,推測統計を行うための概念的な枠組みとして,母集団/母分布標本/標本分布を導入する.母集団/母分布と標本/標本分布を理解するために,まず以下の例をみてほしい.


(例1:国勢調査,政権の支持率調査,製品の不良率調査)

これらの統計調査では,母集団が存在するが,母分布は存在しない.

たとえば,政権支持率の値に興味がある場合,母集団(Population)は「有権者全体」になる.このとき,「母集団の要素全てを調査すること=有権者全員を調査すること」を全数調査(complete survey)という.選挙や国勢調査では全数調査を行う.しかし,コストや速報性の観点から全数調査が現実的ではない場面も多い.そこで,母集団からいくつかの標本(sample)を抽出して,これを基に母集団の推測を行う.


(例2:コインやサイコロの結果予想,株価予測)

これらの推測問題では,母集団が存在しないが,母分布する(と考える).

たとえば,表が出る確率が\(p\)で裏が出る確率が\(1-p\)であるコインの出目に興味がある場合,母分布(Population distribution)はベルヌーイ分布\(Ber(p)\)となる.このとき,「コインを投げる」という試行は無限に繰り返せるため,全数調査は不可能である.そこで,観測データである「何回かコインを投げた結果」を母分布から抽出された標本(sample)の実現値と考えて,これを基に母集団の推測を行う.


次に推測統計の用語を定義する.


母集団と母分布

  • 母集団(Population) \(\Omega\):
    • 調査したいすべての対象が含まれる集合
  • 母分布(Population distribution) \(p(x)\):
    • 推測したい変数\(X\)の従う真の確率分布

無作為抽出

  • 無作為抽出(Random sampling):

    • 乱数などを用いてランダムに標本を抽出すること.
  • 無作為標本(Random sample):

    • 無作為抽出によって,抽出された標本(データ).
  • 独立同分布(Independently and identically distribution)

    • 確率変数\(X_1, \dots, X_n\)は互いに独立かつ,各\(X_i\)が同じ確率分布\(P\)に従っているとき,「\(X_1, \dots, X_n\)は互いに独立同分布に従う」といい,以下のように記述する.

      \[X_1, \dots, X_n ~ i.i.d. \sim ~ P\]

標本と標本分布

  • 標本(Sample) \(\{ X_1, \dots, X_n \}\):

    • 母分布\(p(x)\) に従う\(n\)個の確率変数\(X_i ~ (i=1, \dots, n)\).
  • 母数(Population parameter) \(\theta\):

    • 母分布を決定する定数(パラメータ)や特性値(平均や分散)

      • 母平均\(\mu\):母分布\(p(x)\)の平均

        \[\mu := \int x p(x) dx\]
      • 母分散\(\sigma^2\):母分布\(p(x)\)の分散

        \[\sigma^2 := \int {( x - \mu )}^2 p(x) dx\]
  • 統計量(Statistics) \(t(X_1, \dots, X_n)\):

    • 標本\(\{ X_1, \dots, X_n \}\) に基づいた関数で,母数\(\theta\) を含まないもの.

      • 標本平均\(\overline{X}\):標本\(\{ X_1, \dots, X_n \}\) の平均

        \[\overline{X} := \frac{1}{n} \sum_{i=1}^{n} X_i\]
      • 標本分散\(S^2\):標本\(\{ X_1, \dots, X_n \}\) の分散

        \[S^2 := \frac{1}{n} \sum_{i=1}^{n} {(X_i - \overline{X})}^2\]
  • 標本分布(Sample distribution) \(p(t)\):

    • 統計量\(t(X_1, \dots, X_n)\)の確率分布


img


代表的な母数

  • 確率変数\(X\)の母平均\(\mu\):母分布\(p(x)\)の平均

    \[\mu := \int x p(x) dx\]
  • 確率変数\(X\)の母分散\(\sigma^2\):母分布\(p(x)\)の分散

    \[\sigma^2 := \int {( x - \mu )}^2 p(x) dx\]

代表的な統計量

以下の統計量(標本)は,

  • 確率変数\(X\)の標本平均(Sample mean) \(\overline{X}\):

    \[\overline{X} := \frac{1}{n} \sum_{i=1}^{n} X_i\]
  • 確率変数\(X\)の標本分散(Sample variance) \(S^2\):

    \[S^2 := \frac{1}{n} \sum_{i=1}^{n} {(X_i - \overline{X})}^2\]
  • 確率変数\(X\)の標本不変分散(Sample invariant variance) \(V^2\):

    \[V^2 := \frac{1}{n-1} \sum_{i=1}^{n} {(X_i - \overline{X})}^2\]
  • 確率変数\(X\)のt-統計量(t-statistics) \(T\):

    \[T := \frac{\sqrt{n} (\overline{X} - \mu) }{V}\]
  • 確率変数\(X,Y\)のF-統計量(F-statistics) \(F\):

    \[F := \frac{S_X^2}{S_Y^2}\]

4.2 確率変数と確率分布の収束

マルコフの不等式(Markov’s inequality)

非負の確率変数\(Y \geq 0\)に対して,以下が成り立つ.

\[\forall c \gt 0, ~~~ P(Y \geq 0) \leq \frac{E[Y]}{c}\]

(証明)


チェビシェフの不等式

確率変数\(X\)とその平均\(\mu := E[X]\)と分散\(\sigma^2 := V[X]\)に対して,以下が成り立つ.

\[\forall k \gt 0, ~~~ P( \vert X - \mu \vert \geq k) \leq \frac{\sigma^2}{k^2}\]

(証明)

マルコフの不等式で\(Y = {( X - \mu )}^2\),\(c = k^2\)とおくと,

となる.


大数の法則

\(n\) 個のランダムサンプル\(X_1, \dots, X_n ~ i.i.d. \sim ~ (\mu, \sigma^2)\) に対して,以下が成り立つ.

\[\lim_{n \to \infty} \frac{1}{n} \sum_{i=1}^{n} X_i = \mu\]

(証明)

チェビシェフの不等式より,\(\forall \varepsilon \gt 0\)に対して,

だから,はさみうちの原理より,

\[\lim_{n \to \infty} P(\vert \overline{X} - \mu \vert \geq \varepsilon) = 0\]

となる.

中心極限定理(Central Limit Theorem, CLT)

\(n\) 個のランダムサンプル\(X_1, \dots, X_n ~ i.i.d. \sim ~ (\mu, \sigma^2)\) に対して,以下が成り立つ.

\[\lim_{n \to \infty} P \left( \frac{\sqrt{n}(\overline{X} - \mu)}{\sigma} \leq x \right) = \int_{-\infty}^{x} \frac{1}{\sqrt{2 \pi}} e^{- \frac{t^2}{2}} dt\]

すなわち,

\[\overline{X} \underset{~~~d}{\longrightarrow} \mathcal{N} \left( \mu, \frac{\sigma^2}{n} \right)\]

(証明)

略.正規分布の特性関数をTaylor展開して2次近似して,右辺を導出する.


[演習問題]

\(X_1, \dots, X_n i.i.d. \sim p_X(x)\)とする.このとき,確率変数\(X\)の平均\(E[X]=\mu\) と 分散\(V[X]=\sigma^2\)を用いて,標本平均\(\bar{X} := \frac{1}{n} \sum_{i=1}^{n} X_i\) の平均と分散を求めよ.