第7回 - ベイズの定理

概要

推定統計を学習する準備として、確率の基礎に関する次の事項を記載する。

条件付き確率
ベイズの定理

条件付き確率

条件付き確率とは、2個の事象AとBがあるとき、既に事象Aが起きた場合に、事象Bも合わせて起きる確率を条件付き確率P(B|A)という。
P(B|A)
P(左 : 合わせて起きる事象 | 右 : 既に起きた事象)

条件付き確率の式(事象Aが起きた場合に、事象Bも合わせて起きる条件付き確率)は、次式で表される。
$P (B | A) = \frac{n (A \cap B)}{n (A)} = \frac{\frac{n (A \cap B)}{n (U)}}{\frac{n (A)}{n (U)}} = \frac{P (A \cap B)}{P (A)}$
$P (A \cap B) = P (B | A) \times P (A)$

条件付き確率P(B|A)と同時確率P(A∩B)の違い

条件付き確率P(B|A)
全事象をAのみとしている。

つまり、事象Aが起きた場合の中で、さらに事象Bも起きる確率P(B|A)を考える。
同時確率P(A∩B)
全事象をUとしている。

つまり、事象Aが起きた場合のみに限定せず、A以外が起きる場合も合わせた上で事象AとBが同時に起きる確率を考える。

ベイズの定理

以下に、ベイズの定理の導出過程を示す。

条件付き確率の計算式の2式
${\begin{cases} P (B | A) = \frac{P (A \cap B)}{P (A)} \\ P (A | B) = \frac{P (A \cap B)}{P (B)} \end{cases}$

上式より、次式が求まる。
${\begin{cases} P (A \cap B) = P (B | A) \times P (A) \\ P (A \cap B) = P (A | B) \times P (B) \end{cases}$

さらに、上式をまとめると次式となる。
$\begin{aligned} P (A | B) \times P (B) & = P (B | A) \times P (A) より \\ P (A | B) & = \frac{P (B | A) \times P (A)}{P (B)} \end{aligned}$

あるいは下図に示すように、事象Aが起こるという条件のもとで、K種類の事象(これらは互いに排反とする)が起きる時、
事象Aが起きるという条件のもとで、事象B_iが起きる条件付き確率は、次式から求められる。
$P (B_{i} | A) = \frac{P (A \cap B_{i})}{P (A)} = \frac{P (A | B_{i}) \times P (B_{i})}{P (A)}$

また、 $P (A) = P (A \cap B_{1}) + P (A \cap B_{2}) \dots + P (A \cap B_{K})$ である。
これは、上図のそれぞれの事象における赤い事象Aの部分を足し合わせたものだと考えることができる。
$\begin{aligned} P (B_{i} | A) & = \frac{P (A | B_{i}) \times P (B_{i})}{P (A)} \\ = \frac{P (A | B_{i}) \times P (B_{i})}{P (A \cap B_{1}) + P (A \cap B_{2}) \dots + P (A \cap B_{K})} \end{aligned}$

ベイズの定理とは、先に事象Bが起きた場合に、後の事象Aが起きる場合の確率P(A|B)が分かっている場合において、
逆に後の事象Aが起きたと分かっている時に、先の事象Bが起きる場合の確率P(B|A)を与えるものである。

ベイズの定理の例

あるガンの検査装置の性能が以下の通りとする。
ここで、検出したを $A$ 、癌であるを $B$ 、癌ではないを $\bar{B}$ とする。

癌である被験者を検査して、癌と検出した確率
P(検出した | 癌である) = 0.9

$P (A | B) = 0.9$
癌ではない被験者を検査して、癌と検出した確率
P(検出した | 癌ではない) = 0.1

$P (A | \bar{B}) = 0.1$
癌である確率
P(癌である) = 0.001

$P (B) = 0.001$
癌ではない確率
P(癌ではない) = 0.999

$P (\bar{B}) = 0.999$

この時、検査装置が検出した時に被験者が癌である確率P(ガンである|検出した)を求めよ。

検査装置が"検出した"事象には、"本当にガン"場合と"ガンでない"場合の両方が含まれる。
そのため、"検出した"事象(下図の赤枠)を全体事象とみなす時、"本当に癌である"である確率を求める。

以下に、求める手順を示す。

"検出した、かつ、癌である" $P (A \cap B)$ の確率を求める。
P(検出した ∩ 癌である) = P(検出した | 癌である) × P(癌である)

$P (A \cap B) = P (A | B) \times P (B)$
"検出した"事象(上図の赤枠)の範囲の確率を求める。
P(検出した) $= P (B)$
P(癌である | 検出した)を求める。
P(癌である | 検出した) = P(検出した ∩ 癌である) / P(検出した)

$P (B | A) = \frac{P (A \cap B)}{P (A)}$

ベイズの定理より、下式を求める。
P(癌である | 検出した) = P(検出した | 癌である) × P(癌である) / P(検出した)
$P (B | A) = \frac{P (A | B) \times P (B)}{P (A)}$

まず、P(検出した ∩ 癌である)を求める。
$\begin{aligned} P (A \cap B) & = P (A | B) \times P (B) \\ = 0.9 \times 0.001 \\ = 0.0009 \end{aligned}$

次に、P(検出した)の確率の値は無いため、和事象の確率の公式を用いて求める。
P(検出した) = P(検出した ∩ 癌である) + P(検出した ∩ 癌ではない)
= P(検出した | 癌である) × P(癌である) + P(検出した | 癌ではない) × P(癌ではない)
$\begin{aligned} P (A) & = P (A \cap B) + P (A \cap \bar{B}) \\ = P (A | B) \times P (B) + P (A | \bar{B}) \times P (\bar{B}) \\ = 0.9 \times 0.001 + 0.1 \times 0.999 \\ = 0.1008 \end{aligned}$

最後に、P(癌である | 検出した)の確率を求める。
$\begin{aligned} P (B | A) & = \frac{P (A | B) \times P (B)}{P (A)} \\ = \frac{P (A | B) \times P (B)}{P (A | B) \times P (B) + P (A | \bar{B}) \times P (\bar{B})} \\ = \frac{0.9 \times 0.001}{0.9 \times 0.001 + 0.1 \times 0.999} \\ = \frac{0.0009}{0.1008} \\ = 0.008928 \dots \\ ≅ 0.00893 \end{aligned}$

したがって、検査装置の検査結果が癌と検出した場合であっても、実際に癌である確率は、P(癌である | 検出した) ≅ 0.00893しかない。

では、P(癌である | 検出した)の確率が十分に高くするには、検査装置の性能はどうあればよいかを考える。(例 : 0.9)
例えば、P(検出した | 癌である) = 0.9999、P(検出した | 癌ではない) = 0.0001とする時、以下の値となる。
$\begin{aligned} P (B | A) & = \frac{P (A | B) \times P (B)}{P (A)} \\ = \frac{P (A | B) \times P (B)}{P (A | B) \times P (B) + P (A | \bar{B}) \times P (\bar{B})} \\ = \frac{0.9999 \times 0.001}{0.9999 \times 0.001 + 0.0001 \times 0.999} \\ = \frac{0.0009999}{0.0010998} \\ = 0.909165 \dots \\ ≅ 0.90917 \end{aligned}$

したがって、P(癌である) = 0.001のような癌に罹る確率が低い時は、癌患者に対する検査装置の結果が癌と検出する確率は、
P(検出した | 癌である) = 0.9999と非常に高い確率でなくてはならない。