第8回 - 離散型確率分布

概要

離散型確率分布とは、とびとびの値を取る確率変数の分布を表す枠組みである。
サイコロの目、製品の不良個数、1時間あたりの問い合わせ件数のように、整数で数えられる現象を扱う時に用いる。

本回では、離散型確率変数、確率質量関数 (PMF)、累積分布関数 (CDF)、期待値、分散という基本概念を整理する。
これらは、後に学ぶ推定や検定、回帰、機械学習における確率モデルの基礎になる。

離散型確率変数 $X$ では、各実現値 $x$ に対して $P (X = x)$ を割り当てる。
この対応関係が確率質量関数であり、値は 0 以上 1 以下、全て足すと 1 になる。

累積分布関数 $F (x) = P (X ≦ x)$ は、ある値以下になる確率をまとめて表す関数である。
離散型では階段状の形を持ち、区間確率を求める時に有用である。

また、期待値 $E [X]$ は分布の中心、分散 $V [X]$ は散らばりの大きさを表す。
単に公式を覚えるのではなく、どのような現象をどの分布で近似できるかを理解することが重要である。

実務では、広告クリックの有無、欠陥品の個数、障害発生回数、サーバへの到着件数など、多くの離散現象が確率分布でモデル化される。
離散型確率分布を正しく理解することにより、現象を数理的に記述し、不確実性を定量的に評価できるようになる。

本ページでは、PDFの内容である二項分布、ポアソン分布、チェビシェフの不等式に加え、現代的な標準用語を用いてベルヌーイ分布との区別も明確にする。
さらに、幾何分布、超幾何分布、負の二項分布も簡潔に比較し、実務やデータ分析での使い分けが分かるように補足する。

離散型確率変数

確率変数とは、各事象に数値を対応させる関数である。
そのうち、取り得る値が $0, 1, 2, \dots$ のように離れて並ぶものを離散型確率変数という。

例えば、サイコロ1個の出目を $X$ とすれば、 $X \in {1, 2, 3, 4, 5, 6}$ である。
また、10個の製品のうち不良品の個数を $Y$ とすれば、 $Y \in {0, 1, 2, \dots, 10}$ である。

離散型確率変数の例

サイコロの出目
${1, 2, 3, 4, 5, 6}$
コイン10回投げた時の表の枚数
${0, 1, 2, \dots, 10}$
1時間に届くメール件数
${0, 1, 2, \dots}$
Web広告を表示した時のクリック有無
クリックしないを0、クリックするを1と置けば ${0, 1}$

離散型かどうかを判断する時は、値が数え上げられるかどうかを見ると分かりやすい。
長さ、時間、電圧のように連続的な値を取る変数は、通常は連続型確率変数として扱う。

確率質量関数と累積分布関数

離散型確率分布では、各実現値に確率を割り当てる。
標準的には、確率質量関数をPMF (probability mass function)、累積分布関数をCDF (cumulative distribution function) と呼ぶ。

確率質量関数 (PMF)

離散型確率変数 $X$ の確率質量関数は、 $P (X = x)$ で表す。

基本性質は次の通りである。

非負性
$0 ≦ P (X = x) ≦ 1$
全確率が 1
$\sum_{x} P (X = x) = 1$
区間や集合の確率
$P (a ≦ X ≦ b)$ は、その範囲に入る実現値の確率を足して求める。

累積分布関数 (CDF)

累積分布関数は、 $x$ 以下になる確率として定義される。

 $F (x) = P (X ≦ x)$

離散型では、 $F (x)$ は階段関数になる。
また、区間確率はCDFを用いて次のように表せる。

 $P (a < X ≦ b) = F (b) - F (a)$

例: 確率質量関数と累積分布関数

確率変数 $X$ が $0, 1, 3$ を取り、それぞれの確率が $\frac{1}{6}, \frac{3}{6}, \frac{2}{6}$ であるとする。
この時、PMFとCDFは次のように整理できる。

離散型確率変数 $X$ の PMF と CDF の例
実現値または区間	内容
$P (X = 0)$	$\frac{1}{6}$
$P (X = 1)$	$\frac{3}{6}$
$P (X = 3)$	$\frac{2}{6}$
$F (x)$ for $x < 0$	$0$
$F (x)$ for $0 ≦ x < 1$	$\frac{1}{6}$
$F (x)$ for $1 ≦ x < 3$	$\frac{4}{6}$
$F (x)$ for $x ≧ 3$	$1$

この例では、 $P (X ≦ 1) = F (1) = \frac{4}{6}$ である。
また、 $P (0 < X ≦ 3) = F (3) - F (0) = 1 - \frac{1}{6} = \frac{5}{6}$ と求められる。

期待値と分散

確率分布の特徴を1つの数で要約する時に、期待値と分散が重要になる。
期待値は分布の中心を、分散は散らばりの大きさを表す。

期待値

離散型確率変数 $X$ の期待値は次式で定義される。

 $E [X] = \sum_{x} x P (X = x)$

これは、実現値に確率を重みとして付けた平均である。

例えば、サイコロの出目 $X$ では、 $E [X] = \frac{1 + 2 + 3 + 4 + 5 + 6}{6} = \frac{7}{2}$ となる。

分散と標準偏差

分散は、期待値からのずれの2乗平均である。

$V [X] = E [(X - μ)^{2}] = \sum_{x} (x - μ)^{2} P (X = x)$

ここで $μ = E [X]$ である。

また、計算では次の公式もよく使う。

 $V [X] = E [X^{2}] - {E [X]}^{2}$

標準偏差は分散の正の平方根である。

 $σ = \sqrt{V [X]}$

期待値の基本性質

線形性
$E [X + Y] = E [X] + E [Y]$
定数倍
$E [c X] = c E [X]$
変数変換
$Y = a X + b$ の時、

$E [Y] = a E [X] + b$

$V [Y] = a^{2} V [X]$

これらの性質は、複雑な確率変数を単純な確率変数の和として扱う時に特に有用である。

例えば、複数のベルヌーイ試行の成功回数を考えると、二項分布の期待値と分散が自然に導かれる。

二項分布とベルヌーイ分布

二項分布とベルヌーイ分布は、現代の標準用語では両者を区別する。

ベルヌーイ分布は1回の成功・失敗の試行、二項分布はその反復試行における成功回数の分布である。

ベルヌーイ分布

1回の試行で、成功を1、失敗を0とする確率変数 $X$ を考える。
成功確率を $p$ 、失敗確率を $1 - p$ とすると、 $X$ はベルヌーイ分布に従う。

 $P (X = 1) = p, P (X = 0) = 1 - p$

この分布は $B e r n o u l l i (p)$ と書くことが多い。

期待値と分散は次の通りである。

期待値:
 $E [X] = p$

分散:
 $V [X] = p (1 - p)$

実例として、メールを1通送った時に開封されるかどうか、製品1個が合格か不合格か、広告1回表示でクリックされるかどうかがある。

二項分布

成功確率 $p$ のベルヌーイ試行を独立に $n$ 回繰り返し、成功回数を $X$ とする。
この時、 $X$ は二項分布に従う。

 $P (X = k) = (\binom{n}{k}) p^{k} (1 - p)^{n - k} (k = 0, 1, \dots, n)$

記号では $X \sim B (n, p)$ と書く。

期待値と分散は次の通りである。

期待値:
 $E [X] = n p$

分散:
 $V [X] = n p (1 - p)$

二項分布の例

表が出る確率 $p = 0.6$ のコインを $n = 10$ 回投げる。
表の枚数 $X$ について、ちょうど6回表が出る確率は次の通りである。

$P (X = 6) = (\binom{10}{6}) (0.6)^{6} (0.4)^{4}$

また、期待値は $E [X] = 10 \times 0.6 = 6$ 、
分散は $V [X] = 10 \times 0.6 \times 0.4 = 2.4$ である。

品質管理では、100個中の不良品数、A/Bテストではクリック人数、アンケートでは賛成者数などが二項分布の代表例である。

ポアソン分布

ポアソン分布は、一定の時間や空間の中で、まれに起こる事象の回数を表す分布である。

単位時間当たりの平均発生回数を $λ$ とすると、確率変数 $X$ は次のPMFを持つ。

 $P (X = x) = e^{- λ} \frac{λ^{x}}{x!} (x = 0, 1, 2, \dots)$

期待値と分散はどちらも $λ$ である。

期待値:
 $E [X] = λ$

分散:
 $V [X] = λ$

下図は、放射線カウント数の例であり、ポアソン分布と観測頻度を比較したものである。

ポアソン分布が使いやすい場面

一定時間内の問い合わせ件数
30分間に来る電話件数
一定区間内の欠陥数
フィルムや基板の傷の個数
一定時間内の障害発生数
サーバ監視で1時間に発生するエラー件数
一定面積内の粒子の検出数
放射線カウントや微粒子の観測数

二項分布との関係

二項分布で試行回数 $n$ が非常に大きく、成功確率 $p$ が非常に小さい時、 $n p = λ$ を一定とすれば、二項分布はポアソン分布で近似できる。

この近似は、大量試行の中で稀な事象を扱う時に便利である。
例えば、大規模Webサービスでの短時間障害件数や、稀な製造欠陥の個数を簡潔にモデル化できる。

例: 迷惑メール件数

1日に平均2件の迷惑メールが届くとする。

1日の件数 $X$ を $P o i s s o n (2)$ とみなすと、0件、1件、2件の確率は次のようになる。
$P (X = 0) = e^{- 2}, P (X = 1) = 2 e^{- 2}, P (X = 2) = 2 e^{- 2}$

3件以上の確率は補集合を用いて求められる。
$P (X ≧ 3) = 1 - {P (X = 0) + P (X = 1) + P (X = 2)} = 1 - 5 e^{- 2}$

その他の代表的な離散型確率分布

離散型確率分布には、二項分布とポアソン分布以外にも重要なものがある。

ここでは、使い分けの観点から幾何分布、超幾何分布、負の二項分布を整理する。

幾何分布

成功確率 $p$ の独立なベルヌーイ試行を繰り返し、初めて成功するまでの試行回数を $X$ とする。
この時、 $X$ は幾何分布に従う。

 $P (X = k) = (1 - p)^{k - 1} p (k = 1, 2, 3, \dots)$

期待値と分散は次の通りである。

期待値:
 $E [X] = \frac{1}{p}$ 

分散:
 $V [X] = \frac{1 - p}{p^{2}}$

実例として、最初の購入が起きるまでの広告表示回数、最初の表が出るまでのコイントス回数がある。

超幾何分布

母集団の中に成功があらかじめ有限個含まれていて、非復元抽出で標本を取る時の成功数の分布である。

母集団サイズを $N$ 、成功個数を $K$ 、抽出数を $n$ 、標本中の成功数を $X$ とすると、

 $P (X = k) = \frac{(\binom{K}{k}) (\binom{N - K}{n - k})}{(\binom{N}{n})}$

復元抽出ではなく非復元抽出である点が二項分布との大きな違いである。

例えば、トランプから戻さずにカードを引く場合や、ロット検査で抜き取る場合に現れる。

負の二項分布

成功確率 $p$ の独立試行を繰り返し、 $r$ 回成功するまでに必要な試行回数、またはその時までの失敗回数を扱う分布である。

幾何分布は、 $r = 1$ の特別な場合とみなせる。

例えば、3件の契約成立が得られるまでに何件営業訪問が必要か、一定回数の購入が起きるまでに何回表示が必要か、という問題に用いられる。
また、実務では過分散を持つカウントデータのモデルとしても利用される。

代表的な離散分布の比較

代表的な離散分布の比較
分布	何を数えるか	主な状況	代表的な実例
ベルヌーイ分布	1回の成功か失敗か	1回の二値試行	メール1通の開封有無
二項分布	固定回数試行での成功回数	独立試行、成功確率一定	100人中の購入者数
ポアソン分布	一定区間内の発生回数	稀な事象のカウント	1時間の障害件数
幾何分布	初成功までの試行回数	独立試行、成功確率一定	初クリックまでの表示回数
超幾何分布	非復元抽出での成功数	母集団有限、戻さない抽出	ロットからの不良品数
負の二項分布	所定回数の成功までの試行数	独立試行、成功確率一定	3件成約までの訪問回数

チェビシェフの不等式

チェビシェフの不等式は、確率分布の形が詳しく分からなくても、期待値と分散だけから平均から大きく外れる確率を評価できる不等式である。

離散型確率分布でも連続型確率分布でも成り立つため、一般性が高い。

不等式の形

平均を $μ$ 、標準偏差を $σ$ とすると、任意の $k > 0$ に対して次が成り立つ。

 $P (| X - μ | ≧ k σ) ≦ \frac{1}{k^{2}}$

同値な形として、平均の近くに入る確率は次のようにも書ける。

 $P (| X - μ | < k σ) ≧ 1 - \frac{1}{k^{2}}$

意味

この不等式は、分布の具体的な形を知らなくても、平均から $k$ 標準偏差以上離れる値は多くても $\frac{1}{k^{2}}$ 以下であることを示す。

例えば $k = 2$ なら、平均から2標準偏差以内に少なくとも $1 - \frac{1}{4} = \frac{3}{4}$ が入る。

応用の見方

チェビシェフの不等式は評価としては保守的であるが、分布形状に強い仮定を置かずに保証を与えられる。
サンプルサイズ設計、品質管理、シミュレーション結果の安全側評価などで考え方が役立つ。

また、第6回 - 確率の基礎のページにある大数の法則の理解を補助する見方としても重要である。

標本平均の分散が小さくなることと組み合わせると、試行回数を増やすほど平均の近くに集まりやすいことが分かる。

実務での見方

離散型確率分布は、単なる計算問題ではなく、データ生成過程のモデルとして理解することが重要である。

同じ回数のデータでも、試行の構造が違えば使う分布も変わる。

どの分布を選ぶか

1回だけの成功失敗
ベルヌーイ分布
固定回数の中で成功回数を数える
二項分布
一定時間や空間で発生した件数を数える
ポアソン分布
初成功まで待つ
幾何分布
戻さない抽出で成功数を数える
超幾何分布
複数回成功するまで待つ
負の二項分布

現代的な応用例

Web解析
コンバージョン有無はベルヌーイ分布、一定期間の成約件数は二項分布で考えやすい。
運用監視
1分ごとのエラー件数やアラート件数はポアソン分布の候補になる。
品質管理
非復元抽出による抜取検査では超幾何分布が自然である。
顧客行動分析
初回購入までの接触回数には幾何分布や負の二項分布の考え方が使える。

分布選択では、独立性、成功確率の一定性、復元抽出か非復元抽出か、観測単位が時間区間か試行回数かを確認することが重要である。