その平均値、本当に正しい?中央値・最頻値でデータの「偏り」を見抜く
その平均値、本当に正しい?中央値・最頻値でデータの「偏り」を見抜く
私たちは日々の生活の中で、様々な「平均値」に触れています。例えば、「平均年収」「平均寿命」「テストの平均点」「商品の平均評価」など、あらゆる場面で平均値は私たちに情報を提供し、判断の基準となっています。しかし、この平均値だけを見て、データの全体像を正しく理解できているでしょうか。
この記事では、平均値が持つ特性とその限界を明らかにし、データが示す本当の姿を見抜くために重要な「中央値」と「最頻値」という2つの視点をご紹介します。この記事を読み終える頃には、あなたが目にするデータやグラフに対して、より深く、多角的な視点を持つことができるようになるでしょう。
なぜ「平均値」だけでは不十分な場合があるのか
私たちが「平均」と聞いてまず思い浮かべるのは、「算術平均」と呼ばれるものです。これは、データの値を全て足し合わせ、その合計をデータの個数で割った値のことです。計算が簡単で分かりやすいため、様々な場所で用いられています。
例えば、ある会社の社員5人の月給が以下のようだったとします。
- Aさん: 25万円
- Bさん: 28万円
- Cさん: 30万円
- Dさん: 32万円
- Eさん(社長): 100万円
この場合の平均月給は (25+28+30+32+100) ÷ 5 = 43万円 となります。
しかし、この「平均月給43万円」という数字を見て、「この会社の社員は平均的に43万円もらっているんだな」と理解するのは、少し実態と異なります。なぜなら、社長の100万円という非常に高い給料が、他の社員の給料を大きく引き上げ、平均値を押し上げているからです。
このように、データの中に極端に高い値や低い値(外れ値と呼びます)が含まれている場合、平均値はその外れ値に強く影響され、データの一般的な傾向からかけ離れた値を示すことがあります。これが、平均値だけではデータの真の姿を見誤る可能性がある理由です。
データの「真ん中」を示す「中央値」
平均値の弱点を補うために役立つのが「中央値」(ちゅうおうち、メディアン)です。中央値は、データを小さい順(または大きい順)に並べたときに、ちょうど真ん中に位置する値のことです。
先ほどの社員の月給の例で考えてみましょう。
25万円, 28万円, 30万円, 32万円, 100万円
この5つのデータを小さい順に並べると上記のようになります。この中で真ん中に位置するのは「30万円」です。したがって、この会社の中央月給は30万円となります。
平均月給の43万円と比較すると、中央月給の30万円の方が、社長以外の社員の給料に近い、より現実的な「一般的な社員の給料」を表していると感じるのではないでしょうか。中央値は、外れ値の影響を受けにくいため、データの「一般的な水準」や「偏り」を把握する際に非常に有効です。
最も「多い」傾向を示す「最頻値」
もう一つ、データの全体像を理解する上で大切なのが「最頻値」(さいひんち、モード)です。最頻値は、データの中で最も頻繁に出現する値のことです。つまり、「一番多い」カテゴリーや数値を示します。
例えば、あるアパレルショップで1週間に売れたTシャツのサイズが以下のようだったとします。
S, M, L, S, M, XL, S, M, L, S
このデータをまとめると、
- Sサイズ: 4回
- Mサイズ: 3回
- Lサイズ: 2回
- XLサイズ: 1回
となります。この場合、最も多く売れたサイズは「Sサイズ」ですので、最頻値はSサイズとなります。
もしショップの店長が、「どのサイズを多めに仕入れるべきか」を考えるとき、平均サイズを計算するよりも、最頻値であるSサイズに注目する方が、現実的な判断を下せるでしょう。最頻値は、商品の売れ筋やアンケート調査で最も選ばれた項目など、最も一般的な傾向を知る上で非常に役立ちます。
日常生活での活用とデータの「落とし穴」を見抜く視点
平均値、中央値、最頻値はそれぞれ異なる情報の側面を教えてくれます。これらを使い分けることで、私たちは日常生活で目にする情報に対する理解を深め、より賢明な判断を下せるようになります。
- ニュースや報道を見る際: 「国民の平均所得」という情報があったら、「中央値はどのくらいだろうか?」と一歩踏み込んで考えてみましょう。もし平均値と中央値に大きな差があれば、少数の高所得者が平均値を引き上げている可能性があると推測できます。
- 商品やサービスの評価を見る際: 「平均評価4.5点」という商品があったとします。一見すると高評価ですが、中央値が低かったり、評価の内訳を見ると「星5」と「星1」が極端に多い(最頻値が複数ある、または両極端にある)場合、その商品には熱烈なファンがいる一方で、不満を持つ人も多い、といった実態が見えてくるかもしれません。
- 健康情報を見る際: 例えば、ある健康法の効果について「参加者の平均体重が5kg減少した」という情報があったとします。これだけでは、一部の人が大幅に減量したことで平均値が下がったのか、それとも多くの人が少しずつ減量したのかは分かりません。中央値や最頻値の情報があれば、より多くの人が効果を実感できたのか、あるいは特定の人に強く効果が出ただけなのか、といった見方ができます。
情報を提供する側が、都合の良いデータ(例えば、平均値だけ)を提示して結論に誘導しようとすることもあります。私たちは、常に「このデータは本当に全体像を表しているのか」「他の側面から見たらどうなるのか」という問いかけを忘れないことが、情報過多な現代を生き抜く上で非常に重要です。
まとめ
この記事では、データや統計を正しく読み解くための重要な視点として、平均値、中央値、最頻値について解説しました。
- 平均値: データの合計を個数で割った値。外れ値に影響されやすい。
- 中央値: データを並べたときの真ん中の値。外れ値の影響を受けにくく、一般的な傾向を把握するのに適している。
- 最頻値: データの中で最も頻繁に出現する値。最も一般的な傾向やカテゴリーを示す。
これらの異なる指標を理解し、使い分けることで、私たちは表面的な数字に惑わされることなく、データの背景にある本当の姿や、情報提供者の意図まで見抜く力を養うことができます。日常生活で目にするあらゆるデータに対して、複数の視点を持って接する習慣を身につけていきましょう。