データ読み解き入門ナビ

その平均値、本当に正しい?中央値・最頻値でデータの「偏り」を見抜く

Tags: データ分析, 統計, 平均値, 中央値, 最頻値, 情報リテラシー

その平均値、本当に正しい?中央値・最頻値でデータの「偏り」を見抜く

私たちは日々の生活の中で、様々な「平均値」に触れています。例えば、「平均年収」「平均寿命」「テストの平均点」「商品の平均評価」など、あらゆる場面で平均値は私たちに情報を提供し、判断の基準となっています。しかし、この平均値だけを見て、データの全体像を正しく理解できているでしょうか。

この記事では、平均値が持つ特性とその限界を明らかにし、データが示す本当の姿を見抜くために重要な「中央値」と「最頻値」という2つの視点をご紹介します。この記事を読み終える頃には、あなたが目にするデータやグラフに対して、より深く、多角的な視点を持つことができるようになるでしょう。

なぜ「平均値」だけでは不十分な場合があるのか

私たちが「平均」と聞いてまず思い浮かべるのは、「算術平均」と呼ばれるものです。これは、データの値を全て足し合わせ、その合計をデータの個数で割った値のことです。計算が簡単で分かりやすいため、様々な場所で用いられています。

例えば、ある会社の社員5人の月給が以下のようだったとします。

この場合の平均月給は (25+28+30+32+100) ÷ 5 = 43万円 となります。

しかし、この「平均月給43万円」という数字を見て、「この会社の社員は平均的に43万円もらっているんだな」と理解するのは、少し実態と異なります。なぜなら、社長の100万円という非常に高い給料が、他の社員の給料を大きく引き上げ、平均値を押し上げているからです。

このように、データの中に極端に高い値や低い値(外れ値と呼びます)が含まれている場合、平均値はその外れ値に強く影響され、データの一般的な傾向からかけ離れた値を示すことがあります。これが、平均値だけではデータの真の姿を見誤る可能性がある理由です。

データの「真ん中」を示す「中央値」

平均値の弱点を補うために役立つのが「中央値」(ちゅうおうち、メディアン)です。中央値は、データを小さい順(または大きい順)に並べたときに、ちょうど真ん中に位置する値のことです。

先ほどの社員の月給の例で考えてみましょう。

25万円, 28万円, 30万円, 32万円, 100万円

この5つのデータを小さい順に並べると上記のようになります。この中で真ん中に位置するのは「30万円」です。したがって、この会社の中央月給は30万円となります。

平均月給の43万円と比較すると、中央月給の30万円の方が、社長以外の社員の給料に近い、より現実的な「一般的な社員の給料」を表していると感じるのではないでしょうか。中央値は、外れ値の影響を受けにくいため、データの「一般的な水準」や「偏り」を把握する際に非常に有効です。

最も「多い」傾向を示す「最頻値」

もう一つ、データの全体像を理解する上で大切なのが「最頻値」(さいひんち、モード)です。最頻値は、データの中で最も頻繁に出現する値のことです。つまり、「一番多い」カテゴリーや数値を示します。

例えば、あるアパレルショップで1週間に売れたTシャツのサイズが以下のようだったとします。

S, M, L, S, M, XL, S, M, L, S

このデータをまとめると、

となります。この場合、最も多く売れたサイズは「Sサイズ」ですので、最頻値はSサイズとなります。

もしショップの店長が、「どのサイズを多めに仕入れるべきか」を考えるとき、平均サイズを計算するよりも、最頻値であるSサイズに注目する方が、現実的な判断を下せるでしょう。最頻値は、商品の売れ筋やアンケート調査で最も選ばれた項目など、最も一般的な傾向を知る上で非常に役立ちます。

日常生活での活用とデータの「落とし穴」を見抜く視点

平均値、中央値、最頻値はそれぞれ異なる情報の側面を教えてくれます。これらを使い分けることで、私たちは日常生活で目にする情報に対する理解を深め、より賢明な判断を下せるようになります。

情報を提供する側が、都合の良いデータ(例えば、平均値だけ)を提示して結論に誘導しようとすることもあります。私たちは、常に「このデータは本当に全体像を表しているのか」「他の側面から見たらどうなるのか」という問いかけを忘れないことが、情報過多な現代を生き抜く上で非常に重要です。

まとめ

この記事では、データや統計を正しく読み解くための重要な視点として、平均値、中央値、最頻値について解説しました。

これらの異なる指標を理解し、使い分けることで、私たちは表面的な数字に惑わされることなく、データの背景にある本当の姿や、情報提供者の意図まで見抜く力を養うことができます。日常生活で目にするあらゆるデータに対して、複数の視点を持って接する習慣を身につけていきましょう。