第6回 - 確率の基礎

概要

確率とは、不確実な事象の起こりやすさを数量的に表現するための概念である。

統計学において、確率は標本から母集団を推測する時の不確実性を定量化する核心的な役割を担う。

確率の定義には、主に2つのアプローチがある。

数学的確率
有限な全事象において、全ての根元事象が同様に確からしい時に定義される。

事象の場合の数を全体の場合の数で割ることで計算する。

サイコロやコイントス等、対称的な試行に適用できる。
統計的確率 (経験的確率)
数学的確率で計算できない場合に、多数回の試行結果から相対頻度として求める。

画鋲を投げて針が上を向く確率等、複雑な物理現象の確率推定に用いる。

確率の基本公式には、和事象の確率、補事象の確率、ド・モルガンの法則等がある。
これらは、第5回 - 集合と場合の数のページで学習した集合の性質 (和集合、補集合、共通部分) を確率に応用したものである。

独立な試行とは、互いに影響を与えない複数の試行のことであり、確率の掛け算で同時確率を求めることができる。
反復試行は独立な試行を繰り返す特殊な場合であり、二項分布の基礎となる重要な概念である。

現代のデータサイエンスでは、確率は不確実性の定量化、確率モデルの構築、モンテカルロ法によるシミュレーション等で広く応用されている。
特に、AIや機械学習においては、予測の不確実性を確率的に表現することが重要になっている。

本ページの内容は、第7回で学習する条件付き確率やベイズの定理、第8回以降の確率分布への橋渡しとなる。
ここでは、推定統計を学ぶ準備として、確率の基礎に関する事項を整理する。

確率の基礎を確実に理解することにより、推定統計学の学習をスムーズに進めることができる。

確率の数学的定義

確率の数学的定義は、有限な全事象において、全ての根元事象が同様に確からしく起こる場合に用いられる。
この定義は、ラプラスによる古典的確率の定義とも呼ばれる。

数学的確率

有限な全事象 $U$ に対して、全ての根元事象が同様に確からしく起こる時、事象 $A$ の起こる確率は、事象 $A$ に含まれる場合の数を全体の場合の数で除算することで定義される。

 $P (A) = \frac{n (A)}{n (U)}$

ここで、 $n (A)$ は事象 $A$ に含まれる場合の数、 $n (U)$ は全体事象 $U$ の場合の数である。

例えば、サイコロを1回振る試行では、全体事象は $U = {1, 2, 3, 4, 5, 6}$ である。
「1の目が出る」事象Aの確率は、 $n (A) = 1$ 、 $n (U) = 6$ より、 $P (A) = \frac{1}{6}$ となる。

この確率は、サイコロを6回振ると1回は必ず1の目が出るという意味ではない。
6000回振るとほぼ1000回、60000回振るとほぼ10000回が1の目になることを意味する。

確率は数多くの試行回数で考える必要がある。

なお、現代の確率論では、コルモゴロフの公理系に基づいて確率が定義される。
コルモゴロフの公理系は以下の3つの公理から構成される。

非負性の公理
任意の事象 $A$ に対して、 $P (A) ≧ 0$ が成り立つ。
全事象の公理
全体事象 $U$ の確率は $P (U) = 1$ である。
加法性の公理
互いに排反な事象 $A_{1}, A_{2}, \dots$ に対して、 $P (A_{1} \cup A_{2} \cup \dots) = P (A_{1}) + P (A_{2}) + \dots$ が成り立つ。

これらの公理は、数学的確率の直感的な性質を厳密に定式化したものである。

確率の値の範囲

数学的確率の定義から、確率の値は必ず0以上1以下の範囲に収まる。

全事象の確率
全体事象 $U$ は全ての可能な結果を含むため、必ず何らかの事象が起こる。

$P (U) = \frac{n (U)}{n (U)} = 1$
空事象の確率
空事象 $\emptyset$ は何も起こらない事象である。

$P (\emptyset) = \frac{n (\emptyset)}{n (U)} = \frac{0}{n (U)} = 0$

したがって、任意の事象 $A$ に対して次式が成り立つ。

 $0 ≦ P (A) ≦ 1$

確率が0に近いほど起こりにくく、1に近いほど起こりやすいことを示す。

確率が0の事象は不可能事象、確率が1の事象は確実事象と呼ばれる。

確率の基本公式

確率の基本公式は、第5回 - 集合と場合の数のページで学習した集合の性質を確率に応用したものである。

和事象、補事象、ド・モルガンの法則について、確率の観点から整理する。

和事象の確率

2つの事象 $A$ または $B$ の少なくとも一方が起こる確率を和事象の確率という。

集合の和集合の要素数の公式から、次式が導かれる。

 $P (A \cup B) = P (A) + P (B) - P (A \cap B)$

この式では、 $A \cap B$ ( $A$ と $B$ の両方が起こる確率)を引くことで、重複部分の2重計算を防いでいる。

例えば、サイコロを1回振る時、「1または2の目が出る」事象A、「偶数の目が出る」事象Bとする。
$A = {1, 2}$ 、 $B = {2, 4, 6}$ より、 $A \cap B = {2}$ である。

$P (A \cup B) = \frac{2}{6} + \frac{3}{6} - \frac{1}{6} = \frac{4}{6} = \frac{2}{3}$

$A$ と $B$ が互いに排反 (同時に起こらない) な場合、 $P (A \cap B) = 0$ となるため、公式は次のように簡単になる。

 $P (A \cup B) = P (A) + P (B)$

これは、和の法則に対応している。

補事象の確率

事象 $A$ が起こらない確率を $A$ の補事象の確率といい、 $P (A^{c})$ または $P (\bar{A})$ で表す。

集合の補集合の性質から、次式が導かれる。

 $P (A^{c}) = 1 - P (A)$

この公式は、直接計算が難しい場合に「全体から減算する」ことで簡潔に求められる場合がある。

例えば、サイコロを1回振る時、「1の目が出ない」確率は次のように求められる。
$P (A^{c}) = 1 - P (A) = 1 - \frac{1}{6} = \frac{5}{6}$

補事象を用いることで、複雑な計算を避けて確率を求めることができる場面が多い。

ド・モルガンの法則

補事象、和事象、積事象の間には、ド・モルガンの法則が成り立つ。

集合に対するド・モルガンの法則と同様に、確率でも次の関係が成り立つ。

 $P ((A \cap B)^{c}) = P (A^{c} \cup B^{c})$ 
 $P ((A \cup B)^{c}) = P (A^{c} \cap B^{c})$

第1式は、「 $A$ と $B$ の両方が起こること」の否定が、「 $A$ が起こらないまたは $B$ が起こらない」ことに等しいことを意味する。

第2式は、「 $A$ または $B$ の少なくとも一方が起こること」の否定が、「 $A$ も $B$ も起こらない」ことに等しいことを意味する。

ド・モルガンの法則は、論理式の変形や確率計算で頻繁に用いられる重要な法則である。

確率の統計的定義

数学的確率は、全ての根元事象が同様に確からしい場合にのみ適用できる。
しかし、現実の多くの問題では、この条件を満たさない場合がある。

そのような場合に用いられるのが統計的確率 (経験的確率) である。

統計的確率(経験的確率)

数学的確率であらかじめ計算できない場合、試行回数nを増やしていき、ある事象 $A$ が起こった回数xを数えることで確率を推定する方法を統計的確率という。

 $p = \lim_{n \to \infty} \frac{x}{n}$

この定義は、事象 $A$ の相対頻度が試行回数を増やすことで真の確率に収束することを示している。

例えば、画鋲を投げた時に針が上を向く確率を考える。

画鋲の形状は複雑であり、針が上を向く場合の数を理論的に計算することは困難である。
しかし、画鋲を何回も投げて針が上を向く回数を数えれば、その比率から確率を推定できる。

統計的確率は、気象予報、品質管理、市場調査等、実際のデータに基づいて確率を求める場面で広く用いられる。

大数の法則

試行回数nを増やしていくと、事象 $A$ の相対頻度 $\frac{x}{n}$ が真の確率 $p$ に限りなく近づくことを大数の法則という。

大数の法則には、以下の2つの形がある。

弱法則の大数
試行回数nを大きくすると、相対頻度が真の確率から大きくずれる確率が0に近づく。

$\lim_{n \to \infty} P (| \frac{x}{n} - p | ≧ ε) = 0$
強法則の大数
試行回数nを大きくすると、相対頻度が確率1で真の確率に収束する。

$P (\lim_{n \to \infty} \frac{x}{n} = p) = 1$

大数の法則は、モンテカルロ法やシミュレーションの理論的基礎となっている。

現代のデータサイエンスでは、大数の法則の考え方がA/Bテスト等にも応用されている。
サンプルサイズが十分に大きければ、標本平均は母平均に近づくため、十分なデータを集めることが重要である。

独立な試行

独立な試行は、複数の試行が互いに影響を与えない場合の概念である。

日常生活において、サイコロを振る行為やコイントスは典型的な独立な試行である。

独立な試行の定義

2つ以上の試行がお互いに全く影響を与えない時、これらの試行を独立な試行という。

例えば、サイコロを振る時、前に1の目が出たからといって、次に3の目が出る確率が上がることはない。
つまり、前後の試行結果の間には無関係であり、各試行は独立している。

独立な試行の例を以下に示す。

コイントス
1回目に表が出ても、2回目に表が出る確率は $\frac{1}{2}$ のままである。
カードの復元抽出
引いたカードを元に戻してから次を引く場合、各回の抽出は独立である。
くじ引きの復元
引いたくじを元に戻す場合、各回の結果は独立である。

一方、以下は独立ではない例である。

カードの非復元抽出
引いたカードを戻さない場合、残りのカードの構成が変わるため各回は独立ではない。
天気の連続観測
今日が雨なら、明日も雨の確率が高くなる可能性がある。

独立かどうかの判断は、確率計算の前提として極めて重要である。

独立な試行の確率

2つの試行が独立である場合、試行1で事象 $A$ が起こり、かつ試行2で事象 $B$ が起こる確率 (同時確率) は、各確率の積で計算できる。

 $P (A \cap B) = P (A) \cdot P (B)$

この公式は、独立な試行における積の法則に対応している。

例えば、1回目のサイコロで1の目が出る事象 $A$ 、2回目のサイコロで6の目が出る事象 $B$ とする。

両試行が独立なので、次式となる。

$P (A) = \frac{1}{6}, P (B) = \frac{1}{6}$
$P (A \cap B) = P (A) \cdot P (B) = \frac{1}{6} \cdot \frac{1}{6} = \frac{1}{36}$

お互いに独立でない場合は、条件付き確率を用いて次のように表される。

 $P (A \cap B) = P (B | A) \cdot P (A) = P (A | B) \cdot P (B)$

条件付き確率の詳細については、第7回 - ベイズの定理のページを参照すること。

独立な試行の概念は、データサイエンスにおいても重要である。

統計学では、独立同分布 (i.i.d.) のサンプルが前提となることが多い。

A/Bテストでは、各ユーザの行動が互いに独立であることを前提としている。

反復試行の確率

反復試行は、同じ試行を繰り返し行う場合の確率を扱う概念である。

独立な試行を繰り返すことで、特定の事象が一定回数起こる確率を計算できる。

反復試行の確率公式

1回の試行で事象 $A$ の起こる確率が $p$ の時、事象 $A$ の起こらない確率は $q = 1 - p$ である。
この試行をn回繰り返し、そのうち事象 $A$ が合計 $k$ 回起こる確率は、次式で表される。

 $P (n回のうちAがk回) =_{n} C_{k} \cdot p^{k} \cdot q^{n - k} =_{n} C_{k} \cdot p^{k} \cdot (1 - p)^{n - k}$

この公式は、反復試行の確率公式または二項分布の基礎となる公式である。

公式の意味は以下の通りである。

$_{n} C_{k}$
n回の試行のうち、事象 $A$ が $k$ 回起こる場所の選び方の総数。

組合せの公式を用いて計算する。
$p^{k}$
事象 $A$ が $k$ 回起こる確率
$q^{n - k}$
事象 $A$ が起こらない回数が $n - k$ 回である確率。

反復試行の確率公式は、二項分布の基礎となる。
二項分布は、反復試行の確率を一般化した確率分布である。

反復試行の例

サイコロを4回振って、そのうち2回偶数が出る確率を求める。

まず、1回の試行で偶数が出る確率p、奇数が出る確率qは次の通りである。
$p = \frac{3}{6} = \frac{1}{2}, q = \frac{3}{6} = \frac{1}{2}$

4回の試行のうち2回偶数が出る場所の選び方は、 $_{4} C_{2} = \frac{4!}{2! 2!} = 6$ となる。

したがって、求める確率は次のように計算される。
$P =_{4} C_{2} \cdot {(\frac{1}{2})}^{2} \cdot {(\frac{1}{2})}^{4 - 2} = 6 \cdot \frac{1}{4} \cdot \frac{1}{4} = \frac{6}{16} = \frac{3}{8}$

別の方法として、全ての場合の数を数え上げて確率を求めることもできる。

4回振る時、サイコロの目は $6^{4} = 1296$ 通りある。

そのうち、2回偶数・2回奇数となる場合の数は、4回のうち偶数になる位置の選び方が6通りあり、各並び方は次のように表せる。

4回のうち2回偶数になる並び方
1回目	2回目	3回目	4回目
偶数	偶数	奇数	奇数
偶数	奇数	偶数	奇数
偶数	奇数	奇数	偶数
奇数	偶数	偶数	奇数
奇数	偶数	奇数	偶数
奇数	奇数	偶数	偶数

また、偶数は1回のサイコロで $2, 4, 6$ の3通り、奇数は $1, 3, 5$ の3通りである。
したがって、それぞれの並び方ごとに、偶数の目の決め方は $3^{2} = 9$ 通り、奇数の目の決め方も $3^{2} = 9$ 通りある。

$6 \times 3^{2} \times 3^{2} = 6 \times 9 \times 9 = 486$
したがって、 $P = \frac{486}{1296} = \frac{3}{8}$ となり、反復試行の公式と一致する。

別の例として、コイントスを5回行って、表が3回出る確率を求める。
$P =_{5} C_{3} \cdot {(\frac{1}{2})}^{3} \cdot {(\frac{1}{2})}^{2} = 10 \cdot \frac{1}{8} \cdot \frac{1}{4} = \frac{10}{32} = \frac{5}{16}$

反復試行の確率は、品質管理における不良品の発生確率、通信におけるパケット損失の確率等、幅広い分野で応用されている。

確率と現代データサイエンス

確率の概念は、現代のデータサイエンスやAIにおいて、核心的な役割を果たしている。

確率モデルや不確実性定量化、モンテカルロ法等を以下に示す。

確率モデルと不確実性定量化

データサイエンスでは、現象を確率モデルとして表現し、その不確実性を定量化することで、より堅牢な意思決定を行う。

確率モデルとは、観測データの生成メカニズムを確率分布で表現したものである。
例えば、ユーザの行動データやセンサーの測定値等は、確率分布に従って生成されると仮定することで統計的な分析が可能となる。

不確実性の定量化には、以下に示す2種類の不確実性が区別される。

アレアトリー不確実性 (Aleatoric uncertainty)
データ自体に内在するランダム性やノイズに起因する不確実性。

観測の度に異なる値が得られるため、本質的に削減できない。

例: サイコロの出目、センサの測定誤差
エピステミック不確実性 (Epistemic uncertainty)
モデルの知識不足やデータの不足に起因する不確実性

より多くのデータを集めることや、より良いモデルを構築することで削減可能

例: 未知の環境での予測、学習データに含まれないケースの予測

現代の機械学習では、これらの不確実性を区別して定量化することで、モデルの予測信頼度を評価している。

また、確率モデルはベイズ推論の基盤ともなる。

第7回 - ベイズの定理のページは、事前情報と観測データを組み合わせて事後確率を更新する枠組みであり、現代のAIシステムで広く応用されている。

モンテカルロ法とシミュレーション

モンテカルロ法は、乱数を用いて確率分布や複雑な積分を数値的に計算する手法である。

モンテカルロ法の基本原理は、大数の法則に基づいている。
試行回数を十分に増やすことで、乱数を用いたシミュレーションの結果が真の値に収束する。

モンテカルロ法の応用例を以下に示す。

数値積分
高次元の積分や複雑な形状の領域上の積分を、乱数サンプリングで近似する。

次元が高くなると、従来の数値積分法より効率的な場合がある。
金融工学
オプション価格の計算やリスク評価に用いられる。

ブラック・ショールズモデル等の複雑な金融モデルをシミュレーションで解く。
物理シミュレーション
粒子の運動や熱伝導等の複雑な物理現象を確率的にシミュレーションする。
統計学におけるMCMC法
マルコフ連鎖モンテカルロ法(MCMC)は、複雑な事後分布からサンプルを生成する手法。

ベイズ統計や機械学習で広く用いられる。

反復試行の確率は、モンテカルロ法の基本的な構成要素である。
独立な試行を繰り返しシミュレーションすることで、複雑な現象の確率的挙動を理解することができる。

データサイエンスの実務では、Python等のプログラミング言語を用いてモンテカルロシミュレーションを実行する。

以下の例は、サイコロを10000回振って1の目の出る相対頻度を確認するシミュレーションである。

 import random
 
 n_trials = 10000
 count = 0
 for _ in range(n_trials):
    if random.randint(1, 6) == 1:
       count += 1
 
 probability = count / n_trials
 print(f"相対頻度: {probability}")
 
 # 出力例:
 相対頻度: 0.1663 (理論値 1/6 ≈ 0.1667 に近い)

このように、確率の基礎概念は、現代のデータサイエンスやシミュレーションの根本に位置している。