順番学研究所のご案内

無料ブログはココログ

« 2008年2月 | トップページ | 2008年6月 »

2008年4月

2008年4月 6日 (日)

中国あり得ない!の件

*2009年9月23日注記 Z値の説明のために使っていたヒーロー君とメガネ君の勝負の例が、統計学的に不適切だった(正規分布を適用するのに無理があった)のに気付いたので、別の例に変えました。

 今回は、中国における男女の出生率の違いが、どのくらいひどくあり得ないことなのか、考えてみるのがテーマです。でも、まずはその前に、確率の基礎の話をしなければいけません。

 マンガなんかではよく、不可能を可能するオトコがヒーローになったりする。絶体絶命のピンチで、恐ろしいまでの引きの強さを見せて、勝っちゃう人。それを見て、ライバルのメガネ君がこう言ったりする。

 「そんな…! そんなの確率的にありえない!」

 たぶん、メガネ君は何らかの方法で確率を計算し、自分がほとんど勝てるという確信を持っていたのだろう。勝てる確率とか負ける確率とか、あり得る確率とかあり得ない確率とか、そういう手の確率の計算は、マンガの中だけの話とお思いの方も多いかもしれませんが、状況によっては、まあ、そんなに難しくなく導けるものだ。

 確率的にあり得るかあり得ないか、を計算する方法の一つにz検定というのがある。まずは、z検定について、ヒーロー君とメガネ君が、コイン投げを使ってゲームするという例で、説明しよう。

 二人のゲームが進行していくにつれ、どんどんとメガネ君が得点を重ねてリードしていった。最後の最後、点差は決定的に開き、ヒーロー君が勝つには500枚のコインを投げるゲームで、300枚以上を表にしなければならなくなった。しかし、ヒーロー君はこの難関を突破し、実際に500枚のコインを投げて、うち300枚以上を表にすることに成功してしまった。そこでメガネ君は、「そんな…! そんなの確率的にありえない!」と叫ぶことになるわけだが、さて、この確率はどのくらいあり得ないものなのか、計算してみる。

 コインを投げて表の出る確率は2分の1。だから500枚コインを投げると、平均的には250枚表が出ることになる。ここまで、よろしいでしょうか? でも、平均値の通りに250枚出るとは限らない。245枚かもしれないし、270枚かもしれない。もしかしたら、300枚ということも、そうあり得ないことではないのかもしれない。

 こういうときにz値を計算してみるのである。z値とは、平均からのずれを示す指標で、これが0から離れるほど、「あり得ない」ということになる。もっと詳しく言えば、平均値から標準偏差のz値倍だけ、ずれているという意味である。もし、z値が1だったら、平均から標準偏差1個分ずれているということになる。これは、受験のころなじみのある「偏差値」で表すと、偏差値60だということと同じ意味である(偏差値の計算方法は「50+10×z値」)。つまり偏差値60と同じくらいの「あり得なさ」という意味なので、あまり大した「あり得なさ」ではない。もしz値が3だったら、偏差値に直せば80というのと同じ意味なので、これは相当に、「あり得ない」という意味になる。
具体的にz値の計算方法を示すと、
image02.JPG
である。

 ここで、 の上に棒が付いているのは「ヒーロー君が出したコインの表の割合」。今回の場合は300/500で0.6。 は「想定される表の出る確率(平均)」。今回の場合は2分の1。 は投げたコインの数。今回は500となる。これを計算すると、だいたいz=4.47となる。

 これは偏差値に直すと、偏差値95と同じくらい「あり得ない」ことという意味になる。では、具体的にはどれくらいあり得ないのか。どのくらいの確率なのか。

 z値がある値になる確率は、もう統計学者が計算してくれていて、標準正規分布表というものにまとめられている。それによれば、zが1以上になる場合の確率は約15.9%、2以上の確率は、約2.28%。3以上だと0.13%と急激に小さくなっていく。z値が4.47より大きくなる確率はExcelに計算させると、0.000391%程度。つまり、500枚のコインを投げてうち300枚が表になるということが偶然に起きる確率は、0.000391%以下ということで、えらく低い確率だ。

 問題はこの確率をどう解釈するかである。「ヒーロー君は尋常じゃなく引きが強いオトコの中のオトコである」と解釈するか、「ヒーロー君はコインに何らかの細工をして表が出やすくした。つまり、オトコの風上にも置けない卑劣なやつである」と解釈するか。たいていの場合、後者と解釈するだろう。

 さて、いよいよ中国の男女出生比率がどのくらいあり得ないかという話である。中国では一人っ子政策が行われていながら、親が男児をほしがる傾向をもつことにより、非常に大きな男女の出生率差が生じている。前にもこのブログで論じたことがあるが、コンドームと親が男児をほしがるという意思だけでは、男女の出生率は変動しない。男女産み分けの医療技術、堕胎、子殺し、生まれてきた女児を届け出ないなどのことにより、統計にゆがみが生じているのだと考えられる。考えられるのではあるが、しかし、これを検定してみようと思う。

 中国の男女の出生比率は119.9対100だというから、男児が54.525%、女児が45.475%ということになる。一方、何の作為もない場合の人間の男女出生比率は、男児51.2%、女児48.8%だと言われている。しかし、これはあくまでも平均だ。もしかしたら、先のヒーロー君の話のように、偶然にも平均からずれて男児の出生率が高くなっているのではないか。もしかしたら、このくらいの男女出生比率の変動は、統計的にもあり得るのではないか、ということを検証してみようというわけだ。ここでも、先の例と同じようにz値をつかえばいい。

 今回のz値を算出する場合、 には中国の男児の出生比率である0.54525をあてはめる。 は平均の男児の出生比率である0.512を使う。 には中国の年間出生件数である1600万を使う。以上の数値を上記の式にぶち込むと、得られるz値は驚くなかれ、z=266.0766となる。

 思い出してほしいが、z値は、「想定される平均から標準偏差の何個分離れているか」を示すものである。つまり、中国の男女出生比率は、想定される平均から標準偏差にして266個分以上もずれているということになる。これを先ほどと同じように、「偏差値」で表せば、偏差値2710だ。偏差値2710をたたき出すのと同じくらいあり得ないということになる。

 先のヒーロー君の例ではz値が4.47で、その確率は0.000391%だった。ふつう、統計学の教科書に載っている正規分布表は、z値が3くらいまでしか確率が示されていない。それ以上は確率が小さくなりすぎるので、表には載せないのである。z値が大きくなると対応する確率は急激にゼロに近づく。z値が266というのは、エクセルを使って計算しても、確率は0としか表示されない。あまりに小さすぎて、計算できないのだ。つまり、もう絶対的に確率ゼロと言いきっていいくらい、小さい確率である。

 しかし、問題はこの事実の解釈だ。「中国の男女出生比率は統計学的に偶然ではなく、ものすごく強力な作為が働いた結果である」という結論を出すこともできるし、「そもそも自然状態での男児の出生比率が0.512というのが間違いなのでは?」とも考えられる。まあ、たしか0.512という数字が間違っている可能性も考えられなくはない。近年、世界的に男女出生比率が変動しているのではないかという研究もあるそうだ。しかし、0.512という数字が、多少ずれていたとしても、中国の男女出生率比を偶然だとするのは不可能だろう。

 であるからして、この場合は誰でも、前者の結論を出すだろう。つまり、中国では男児を手に入れるために、ものすごく強い力が働いていると結論付けられるのである。中国がいかに4000年の歴史をもっていようと、その歴史の中で、偶然によって男女出生比率のz値がこれほど高い値を示したことは、一度もないと言い切っていい。

« 2008年2月 | トップページ | 2008年6月 »