第六回:「統計の誤謬」
統計やデータを出すためには、調査したい集団全体(母集団)から、実際に調査する標本(サンプル)を抽出する必要があります。自分が参考にしたいデータを得るためには、ある程度母集団を選別する必要があるのです。例えば――
Q・東京大学に合格する確率を知りたい
全国の高校生を母集団に、東京大学に合格する確率を調べたところで何ら意味はありません。合格率30%以上の高校もあれば、合格率0%の高校もあることでしょう。目的が東京大学合格だとしたら知りたいのはその手段。つまりこの場合は、合格率の高い高校のデータこそが自分にとって必要なデータといえるでしょう。
データの最終結果を、発表の仕方で自分の主張のほうに誘導する方法もありるのです。例えば――
Q・今の大学に入って良かったと思ったか
ある大学の卒業生にアンケートを取った結果、4割が「良かった」、3割が「どちらともいえない」、3割が「不満」、だったとしましょう。「7割の卒業生が不満を感じなかった」と発表するのと「6割の卒業生が良かったと思えなかった」と発表するのとでは、聞き手の印象がだいぶ変わってくるのではないかと思います。
出る
「チートイツの出現率は全体で2.5%だから、ここはを仕掛けたほうが良いでしょう」と解説されたら、麻雀をあまり知らない人はうっかり納得してしまうかもしれません。しかし2.5%という数字は母集団が全く選別されていない数字です。当たり前ですがトイツの無い牌姿が最終的にチートイツになる確率と、上図の手牌で最終的にチートイツになる確率は天と地ほどの差があります。つまりこの時の判断に2.5%という数字は、全く参考にならない意味のないデータだということです。
任意の3牌の内、1牌を重ねる確率を3/34と考えると、チートイツイーシャンテンがテンパイする確率は1巡につき約9%です。「チートイツイーシャンテンからテンパイまでは平均10巡程度かかります」と説明されたら、チートイツを敬遠してしまいそうですが「チートイツイーシャンテンが5巡以内にテンパイする確率は4割弱です」と説明されたら、お!狙ってみようか!という気になるのではないかと思います。
主張の裏付けとして統計やデータを引用するのはメジャーな方法です。しかし中には自分の主張に誘導するため、あまり有用とはいえない統計やデータを引用するケースや、言い方ひとつで結果に対する印象を変えてしまうようようなケースも数多く見られます。
統計やデータを参考にするのは良いのですが、母集団の選別をした上での数字なのか?曲解を生むような表現になっていないか?そういったことを見極めることも大切ですね。
Q・東京大学に合格する確率を知りたい
全国の高校生を母集団に、東京大学に合格する確率を調べたところで何ら意味はありません。合格率30%以上の高校もあれば、合格率0%の高校もあることでしょう。目的が東京大学合格だとしたら知りたいのはその手段。つまりこの場合は、合格率の高い高校のデータこそが自分にとって必要なデータといえるでしょう。
データの最終結果を、発表の仕方で自分の主張のほうに誘導する方法もありるのです。例えば――
Q・今の大学に入って良かったと思ったか
ある大学の卒業生にアンケートを取った結果、4割が「良かった」、3割が「どちらともいえない」、3割が「不満」、だったとしましょう。「7割の卒業生が不満を感じなかった」と発表するのと「6割の卒業生が良かったと思えなかった」と発表するのとでは、聞き手の印象がだいぶ変わってくるのではないかと思います。
出る
「チートイツの出現率は全体で2.5%だから、ここはを仕掛けたほうが良いでしょう」と解説されたら、麻雀をあまり知らない人はうっかり納得してしまうかもしれません。しかし2.5%という数字は母集団が全く選別されていない数字です。当たり前ですがトイツの無い牌姿が最終的にチートイツになる確率と、上図の手牌で最終的にチートイツになる確率は天と地ほどの差があります。つまりこの時の判断に2.5%という数字は、全く参考にならない意味のないデータだということです。
任意の3牌の内、1牌を重ねる確率を3/34と考えると、チートイツイーシャンテンがテンパイする確率は1巡につき約9%です。「チートイツイーシャンテンからテンパイまでは平均10巡程度かかります」と説明されたら、チートイツを敬遠してしまいそうですが「チートイツイーシャンテンが5巡以内にテンパイする確率は4割弱です」と説明されたら、お!狙ってみようか!という気になるのではないかと思います。
主張の裏付けとして統計やデータを引用するのはメジャーな方法です。しかし中には自分の主張に誘導するため、あまり有用とはいえない統計やデータを引用するケースや、言い方ひとつで結果に対する印象を変えてしまうようようなケースも数多く見られます。
統計やデータを参考にするのは良いのですが、母集団の選別をした上での数字なのか?曲解を生むような表現になっていないか?そういったことを見極めることも大切ですね。