2009/04/05

統計でウソをつく法 ダレル・ハフ著 講談社


 これは統計を志す人だけでなく、広汎な一般の人が全て読んだらいいという本。 数字そのものは間違っていなくても、それをどう解釈し、利用するかによって大変な間違いも犯すという警鐘であるとともに、そんな大失敗をいかに防ぐかが書かれている。 原書名はHow to Lie with Statistics, by Darrell Huff。 翻訳は高木秀玄氏。
もとは家内の大学時代、統計学の授業で、すでに総理大臣まで勤めた元教授が薦めた本。 それを読ませてもらったのはもう18年程前だと思う。 あまりに面白く、一晩で読んでしまったと記憶しているが、今回改めて手にとって訳者のあとがきを眺めると、やはり同じ体験をして翻訳を思い立った様子が書かれてある。

【サンプリングの偏り】
例として「エール大学卒業生の年収はなんとxxx万ドル!」と言う統計があった場合、まずその統計のとり方を調べる必要がある。 そもそも卒業生でいまでも連絡を取れる人たちは一部でしかなく、食いっぱぐれて連絡が取れなくなった人たちはこのサンプルに入っていない。 かつ普通の人は給与を聞かれたら多少は誇張して答えるはず。 そう考えると、xxx万ドルという金額は非常に疑わしくなる。

【平均】
平均値と中間値は違う。 平均値は算術的な単純平均。 中間値は、例えば5人を成績順に並べたときの上から3番目、下から3番目のこと。 ある企業の給与平均が月収40万円だとする。 実態としては3人の役員が100万円、残りの平社員7人が10万円しかもらっていないということもあり得る。 でも中間値を取ると10万円ちょっとということになり、むしろそちらのほうが実態を示す数値としては近いかも知れない。 

【小さすぎるサンプル】
この商品には75%の人が満足している、という広告があるとする。 いったい何人に聞いたのか調べてみるべきだろう。 広告の隅に小さく書かれた説明によると、実は実験を行ったデータでしかなく、しかも参加したのはほんの数名だったりする。

【グラフの表現】
例を一目瞭然だが、縦軸、横軸の単位のとり方や省略、あるいは太さなどを工夫することで、見たときの印象が大きく違ってくる。

【原因と結果の誤謬】
ハーバード大学を対象に喫煙する学生の成績を調査して、タバコをすう学生は成績が悪いという統計が発表されたとする。 だが、タバコをすうのは、成績が悪くなったからかも知れないし、そもそもタバコを吸い始めたタイミングからの成績の動きも判らない。


【統計に騙されないための5か条】
★誰がそう言っているのか?
そのデータはどう言った機関、人が出したのか、何を主張するために使われたのかが重要。 政治的、あるいは商業的な団体であれば、普通は自分に都合の悪いデータは出さないだろう。

★どういう方法で判ったのか?
誰に対して調査をし、それがどういう人で、そのうち何パーセントが回答して、そもそもどういう質問の仕方をしたのか。 調査の方法を知ることによって、調査する前から結果がほとんど予測できてしまうこともある。

★足りないデータは何か?
これは隠されているデータをさす。 平均値と中央値のどちらを出しているのか示されていなかったり、ひどい場合は調査データの出所を示していないなどは最たるものだ。

★問題をすりかえていないか?
統計で脳病患者が増えている、と言われていても、本当に増えているのかどうか、単にそれ以前は調査されていなかっただけということもある。 ある国の人口調査で当初は飛んでもなく少ない人口だったのだが、生活保護など福祉を充実するための国勢調査をすると人口が一気に10倍に膨れ上がったこともある。 

★意味があるのか?
選挙予測の統計などは、その時点で調査された人がそう答えただけであって、未来を言い当てるものではない。 科学的に証明されていないことを、もっともらしく統計で出されると、それが事実と誤認することも多い。


【読後感】
※統計は現状分析に非常に重要な学問であり、ツールだと思う。 それと同時に測定の方法は非常に難しいということを、この本を通して改めて知った。 考えてみれば当然で、一般に統計は人が作り出したシステムを測定するために使われるが、そもそも人を測定するための尺度は無限に存在する。 つまりそんなに簡単に数字に置き換えられるものではなく、測定不可能なものの方が世の中には多い。 

※人間というのは弱いもので、数字で表してもらうとホッとして、つい気を許してしまう。 回答が出た気になって考えるのを止めてしまう。 そこが怖い、ということだろう。  脱線するが、ビジネスの世界にいると、なおさらである。 明日儲かるか、明後日儲かるかが判らないときにグラフだけ見て安心したくなるときがある。 

※筆者が使った言葉で上手くまとめてある一節を記す。
「統計というものは、その基礎は数学的なものであるが、科学であると同時に多分に技術でもあるというのが、本当のところである。 ある範囲内でなら、非常に多くのごまかし、あるいは歪曲化でさえ可能なのである。 しばしば統計学者は、さまざまな方法の中から事実を表すための方法を主観に訴えて見出さなければならない。」