Image by DNY59/gettyimages

データ分析で絶対に忘れてはならない「シンプソンのパラドックス」

「平均」と「微分」で事象をとらえる
好評連載「雑学数学」。今回は最近注目されているデータサイエンスにも関係する、数字の分析に関するお話です。

物事や事象を観測し分析を行うとき、そのデータの傾向やパターン、変化などを調べることになります。しかし、「気象データ」「アンケート結果」「選挙予測のデータ」など、データの種類によってその分析の方法や、導き出せることなどはまったく異なります。

今回はそのような、観測や分析に関する雑学数学を紹介していきます。

 

「平均」をとるメリットとデメリット

データを扱うときによく出てくる手法は「平均」です。この平均、少し掘り下げてみると色々と面白い話があります。平均について初めに学んだときには、以下のように説明されたと思います。

たまごが5つあります。それぞれの重さが 59g、61g、58g、62g、60g であるとき、5つの重さの平均

(59+61+58+62+60)÷5=60

となります。

「テストの平均点」「1日の平均気温」「平均年収」など、普段耳にする言葉でこの「平均」というデータの取り方をしているものは沢山あります。テストの平均点は「全員のテストの点数の合計÷人数」で算出され、平均年収は「所得控除前の給与額÷給与所得者数」で算出されております。

なお、平均気温に関しては24時間のなかで1時間おきの気温のデータをもとに平均を算出しており、24時間の1分1秒のすべてのデータを活用しているわけではありません。

また、平均という言葉は使われていませんが、降水量などのデータも平均に直すことができます。たとえば「10分間降水量」や「1時間降水量」は、そのデータをそれぞれ10分、1時間で割れば、1分あたりの平均降水量を算出することができます。

このように、身近なデータの傾向をつかむためには「平均」がよく使われますが、この平均は注意して考えたほうがよいこともあります。その例を今回は紹介していきます。

たとえば学校Aと学校Bに、それぞれ理系クラスと文系クラスがあり、同じ数学のテストを実施したとします。それぞれのクラスの平均点は次の表のようになりました。

理系クラス同士、文系クラス同士の平均点を比較してもらうと、どちらも学校Bのほうが5点ずつ成績がよいことがわかります。

ですが、全体の平均点を取ると、また違った結果が見えてきます。

全体の平均点をとると学校Aは69点、学校Bは64点と、学校Aが逆に5点高くなるのです。

関連記事