第2回 - 1変数の記述統計
概要
1変数の記述統計とは、1つの変数に関するデータを整理し、要約する手法である。
度数分布表やグラフでデータの全体像を視覚的に把握し、基本統計量で定量的に特徴を表現する。
現代のデータ分析では、分布を捉える4つの視点が重要である。
形 (shape)、中心 (center)、散らばり (spread)、外れ値 (outliers) の観点からデータを観察する。
この分布思考 (distribution thinking) は、データの本質を理解する上で不可欠である。
記述統計の目的は、データを正確に表現し、他者に伝えることにある。
視覚化リテラシーを高め、グラフの特徴を適切に解釈する能力が求められる。
現代のデータ分析では、再現性と透明性も重視される。
分析の過程を記録し、他者が同じ結果を再現できるようにすることが重要である。
探索的な分析においても、使用した統計量やグラフの選択理由を明確に示す習慣が必要である。
1変数の記述統計は、2変数間の関係を分析する相関や回帰の基礎となる。
データの特徴を正しく理解することで、推定統計学への足掛かりを得ることができる。
ここでは、度数分布表とヒストグラムの作成方法、各種グラフの特徴、そして平均、中央値、最頻値、分散、標準偏差等基本統計量の計算と解釈を学習する。
外れ値や分布の偏りに対する注意も含め、データを誤解なく要約する技術を身につける。
度数分布表
度数分布表は、データを区間 (階級) に分けて、各区間に含まれるデータの個数 (度数) を整理した表である。
データ数が多い場合、生データのままでは全体像が掴みにくいため、度数分布表を作成すると効果的である。
度数分布表の作成手順
度数分布表を作成する場合は、以下の手順に従う。
- データの範囲を確認する。(最大値と最小値の差 = 範囲)
- 適切な階級数を決定する。(データ数に応じて、概ね5〜15程度)
- 各階級の幅を均等に設定する。
- 各階級に含まれるデータの個数 (度数) を数える。
- 相対度数や累積度数を加えて表を完成させる。
階級の幅は、データの性質を損なわない範囲で適切に選ぶ必要がある。
幅が広すぎると細かな分布の特徴が失われ、狭すぎると全体像が掴みにくくなる。
度数分布表の例
下表に、PDFで扱われている試験得点データ16人分をもとにした度数分布表を示す。
データは である。
- 下表から、60点以上70点未満の階級に最も多くのデータ (4個) が含まれることが分かる。
- 相対度数
- 全体に対する割合を示し、異なるサイズのデータセット間で比較する時に有用である。
- 累積度数
- ある値以下のデータがいくつあるかを把握する時に使用する。
| 階級 (点) | 度数 (人) | 相対度数 | 累積度数 |
|---|---|---|---|
| 30 〜 39 | 1 | 0.0625 | 1 |
| 40 〜 49 | 2 | 0.1250 | 3 |
| 50 〜 59 | 3 | 0.1875 | 6 |
| 60 〜 69 | 4 | 0.2500 | 10 |
| 70 〜 79 | 2 | 0.1250 | 12 |
| 80 〜 89 | 3 | 0.1875 | 15 |
| 90 〜 100 | 1 | 0.0625 | 16 |
| 合計 | 16 | 1.0000 | - |
ヒストグラム
ヒストグラムは、度数分布表を棒グラフで表現したものである。
横軸に階級、縦軸に度数を取り、隣り合う棒の間に隙間を設けないのが特徴である。
連続量の分布を視覚的に把握するために最も広く用いられるグラフである。
ヒストグラムを描く時の注意点は以下の通りである。
- 階級幅の影響
- 同じデータでも階級幅を変えると、分布の印象が大きく変わることがある。
- 複数の階級幅で試作し、データの特徴が最も明確に現れるものを選ぶ。
- 縦軸のスケール
- 縦軸の起点や目盛りの間隔を変えると、分布の印象を操作できる。
- 縦軸は原則として0から始める必要がある。

ヒストグラムからは、分布の中心位置、散らばりの程度、左右対称性、山の数 (単峰か多峰か) 等が読み取れる。
これらは、後述する基本統計量を選ぶ時の重要な手がかりとなる。
様々なグラフ
1変数のデータを表現するグラフには、ヒストグラム以外にも様々な種類がある。
データの性質や伝えたい内容に応じて、適切なグラフを選択する必要がある。
棒グラフ
棒グラフは、カテゴリ (名目尺度や順序尺度) ごとに値を棒の長さで表現する。
隣り合う棒の間に隙間を設けるのが特徴である。
離散的なカテゴリ間の比較に適している。
円グラフ
円グラフは、全体に対する割合を円の扇形の大きさで表現する。
全体の構成比を示す場合に有効であるが、細かな差異の比較には不向きである。
カテゴリ数が少ない場合 (概ね5以下) に使用すると分かりやすい。
箱ひげ図
箱ひげ図 (box plot) は、データの散らばりと外れ値を簡潔に表現するグラフである。
最小値、第1四分位点 (Q1)、中央値 (Q2)、第3四分位点 (Q3)、最大値を箱とひげで表現する。
複数のグループを並べて比較する時に特に有効である。
四分位範囲 (IQR = Q3 - Q1) は、外れ値に影響されにくいロバストな散らばりの指標である。
グラフを選ぶ場合は、データの尺度 (名目、順序、間隔、比例) と伝えたい情報に注意する。
また、視覚化においては、縦軸の起点やスケール、色の使い方等が読者の解釈に影響を与えることを常に意識する必要がある。
基本統計量
基本統計量とは、データの特徴を1つの数値で表現する指標である。
現代の記述統計では、分布の4要素 (形、中心、散らばり、外れ値) の観点から統計量を選ぶことが推奨される。
- 形 (shape)
- 分布が左右対称か、片方に偏っているか (歪み)、山がいくつあるか。
- 形を把握することで、中心や散らばりの指標の選択が導かれる。
- 中心 (center)
- データの中心的位置を表す指標
- 平均、中央値、最頻値が該当する。
- 散らばり (spread)
- データのばらつきの程度を表す指標
- 分散、標準偏差、範囲、IQRが該当する。
- 外れ値 (outliers)
- 大部分のデータから大きく離れた値
- 外れ値の有無が統計量の選択に影響する。
1つの統計量だけではデータの特徴を十分に表現できない。
複数の指標を組み合わせ、グラフと併用することで、データの全体像を正確に把握できる。
平均
平均 (算術平均) は、最も基本的な代表値であり、全てのデータの総和をデータ数で割った値である。
- : 平均
- : データ数
- : i番目のデータの値
平均は、データの総合的な大きさを表す上で優れた性質を持つ。
しかし、極端に大きい値や小さい値 (外れ値) に影響を受けやすいという弱点がある。
幾何平均と調和平均
特殊な状況では、算術平均以外の平均が用いられる。
- 幾何平均
- 比率や成長率の平均を求める時に使用する。
- 調和平均
- 速率や単位量あたりの比率の平均を求める時に使用する。
ただし、日常のデータ分析では算術平均が最も一般的に使用される。
メディアン (中央値)
メディアン (中央値) は、データを小さい順に並べた時に中央に位置する値である。
外れ値の影響を受けにくく、歪んだ分布の代表値として有効である。
メディアンの求め方
データ数 に応じて、中央値の求め方が異なる。
- データ数が奇数の場合
- 小さい順に並べた時の 番目の値が中央値である。
- データ数が偶数の場合
- 小さい順に並べた時の 番目と 番目の値の平均が中央値である。
例 1:
データ {3, 1, 7, 5, 9} を小さい順に並べると {1, 3, 5, 7, 9} となり、中央値は5である。
例 2:
データ {2, 4, 6, 8} を小さい順に並べると {2, 4, 6, 8} となり、中央値は である。
メディアンの特性
メディアンの重要な特性は以下の通りである。
- 外れ値に対してロバストである。
- 極端に大きな値が含まれても、中央値の変化は平均より小さい。
- 分布の歪みを反映する。
- 右に歪んだ分布では、中央値は平均より小さくなる傾向がある。
- 全てのデータの情報を使わない。
- 中央値は順序情報のみを利用し、実際の値の大きさを無視する。
所得分布や住宅価格等、外れ値を含みやすいデータの代表値として広く使用される。
モード (最頻値)
モード (最頻値) は、データの中で最も頻繁に出現する値である。
- 連続データの場合
- ヒストグラムの最も高い棒に対応する階級の代表値 (階級値) を最頻値とする。
- 離散データの場合
- 最も多く出現する値そのものを最頻値とする。
最頻値は、カテゴリデータの代表値としても使用できる。
アンケートの最も多い回答等を示す時に有効である。
ただし、最頻値には以下の注意点がある。
- 複数の山を持つ分布では、最頻値が複数存在する場合がある。(多峰性)
- 全ての値が1回しか出現しない場合、最頻値は定義できない。
- 連続データでは、階級の分け方によって最頻値が変わることがある。
平均、中央値、最頻値の3つを併記することで、分布の特徴がより明確になる。
母分散
分散は、データが平均からどれだけ離れているかを表す指標である。
各データと平均の差の2乗の平均を取ることで、常に非負 の値となる。
母分散は、データ全体 (母集団) の分散を表す。
- : 母分散
- : 平均
- : データ数
分散の単位は、元のデータの単位の2乗となる。
例えば、身長 (cm) の分散の単位は cm2 となる。
このため、分散の値だけでは直感的な解釈が難しい。
分散を計算する別の公式として、以下の式も知られている。
この式は、データの2乗の平均から平均の2乗を引く形で計算できる。
手計算の時に便利な場合がある。
分散が大きいほど、データは平均から広く散らばっている。
逆に分散が小さいほど、データは平均の近くに集中している。

母標準偏差
標準偏差は、分散の正の平方根であり、データの散らばりを元のデータと同じ単位で表現する指標である。
母標準偏差は、母分散の正の平方根である。
- : 母標準偏差
標準偏差は、元のデータと同じ単位で表されるため、分散より直感的に解釈しやすい。
例えば、平均身長が170cm、標準偏差が5cmの場合、
「ほとんどの人の身長は平均から概ね5cm以内に収まる」と大まかに解釈できる。

標準偏差も平均と同様に、外れ値の影響を受けやすい。
外れ値を含むデータでは、標準偏差だけでは散らばりの実態を正しく捉えられない場合がある。
このような場合には、四分位範囲 (IQR) 等のロバストな指標と併用する。
どの基本統計量を使うべきか
データの特徴に応じて、適切な基本統計量を選ぶ必要がある。
1つの統計量だけでは分布の全体像を捉えられないため、複数の指標を組み合わせて報告することが重要である。
対称分布の場合
分布が左右対称に近い場合、平均と標準偏差の組み合わせが有効である。
- 平均は、全てのデータの情報を活用した最良の代表値である。
- 標準偏差は、対称分布の散らばりを適切に表現できる。
- 正規分布では、平均 標準偏差の範囲に約68%のデータが含まれる。

歪んだ分布の場合
分布が左右どちらかに偏っている場合 (歪んだ分布)、中央値と四分位範囲 (IQR) の組み合わせが推奨される。
- 中央値は、外れ値の影響を受けにくい。
- IQR (第3四分位点 - 第1四分位点) は、中央50[%]のデータの範囲を表す。
- 外れ値の影響を受けにくいロバストな要約が可能である。

ロバストな要約
現代のデータ分析では、外れ値に頑健 (ロバスト) な統計量の使用が推奨される場面が増えている。
- メディアンとIQRの組み合わせは、外れ値が存在しても安定した要約を提供する。
- 探索的データ分析 (EDA) の初期段階では、まずロバストな指標で全体像を把握することが推奨される。
- その後、外れ値の有無を確認し、必要に応じて平均と標準偏差も併記する。
また、分析の透明性を保つため、使用した統計量とその選択理由を明示的に記録することが重要である。
外れ値や分布の偏りへの注意
外れ値は、大部分のデータから大きく離れた値であり、統計量の解釈に大きな影響を与える。
分布の偏り (歪み) は、データが左右対称ではなく、一方に集中している状態を指す。
外れ値の検出
外れ値を検出する代表的な方法は以下の通りである。
- 箱ひげ図による判定
- 第1四分位点 (Q1) から を減算した値より小さいデータ
- 第3四分位点 (Q3) から を加算した値より大きいデータ
- 標準偏差による判定
- 平均から (σ: 標準偏差) 以上離れたデータ (正規分布を前提とする)
外れ値を検出した場合、安易に削除してはならない。
外れ値が測定エラーによるものか、あるいは重要な情報を含むものかを慎重に判断する必要がある。
分析の過程で外れ値を除外した場合は、その理由と方法を明確に記録する。
分布の歪み
分布の歪み (skewness) は、左右非対称の程度を数値化した指標である。
- 右に歪んだ分布 (正の歪み)
- 右側に長い尾を持つ。
- 平均が中央値より大きく、中央値が最頻値より大きい関係になりやすい。
- 所得分布や株価のリターン等でよく見られる。
- 左に歪んだ分布 (負の歪み)
- 左側に長い尾を持つ。
- 平均が中央値より小さく、中央値が最頻値より小さい関係になりやすい。
- 試験の満点近傍に集中する得点分布等で見られる。
歪んだ分布では、平均だけを報告すると読者に誤った印象を与えることがある。
そのため、中央値や箱ひげ図と併用することで、分布の実態をより正確に伝えることができる。
データ分析においては、外れ値の有無と分布の歪みを常に確認し、それらを考慮した上で統計量を選択し、解釈することが不可欠である。
関連情報
- 第1回 - イントロダクション
- 第3回 - 2変数間の相関
- 第4回 - 2変数の回帰分析
- 第5回 - 集合と場合の数
- 第6回 - 確率の基礎
- 第7回 - ベイズの定理
- 第8回 - 離散型確率分布
- 第9回 - 連続型確率分布
- 第10回 - 2変数の確率分布
- 第11回 - 正規分布
- 第12回 - 様々な確率分布
- 第13回 - 推定
- 第14回 - 検定
- 第15回 - 適合度検定
- 第16回 - モーメント母関数
- 統計学 - 二項分布
- 統計学 - 連続型確率分布