多重検定によるタイプ1エラー


血液型と性格の関係を肯定的に主張する側は一般的に、多重検定によるタイプ1エラーの可能性を考慮していない。血液型別の場合分けや恣意的なグループ分けによって容易に潜在的な検定回数は増え、タイプ1エラーの可能性は増す。
進化論と創造論に戻る
遺伝学からみた血液型性格判断に戻る

「血液型と性格の関係について、能見氏の本にいくらでも根拠は示されているではないか」とお考えの方もいらっしゃると思います。確かに、能見氏の本には、アンケートの結果や職業による血液型分布の偏りの例がたくさん載っています。そして統計学的な検定を行って、有意な差が示されています。これは、血液型と性格の関連を示す根拠にはならないのでしょうか?私が見るに、能見氏の提示する有意差は、恣意的なグループ分けや試行回数の多さに由来するタイプ1エラー(type I error, 第一種の過誤)のようにしか見えません。タイプ1エラーとは、実際に差はないのにも関わらず、統計的に有意差ありとしてしまう誤りのことです。タイプ1エラーが起こる確率は、サンプルサイズとは無関係に、有意水準(危険率)に等しくなります。有意水準とは、通常、0.05 (5%)や0.01 (1%)といった低い値に設定され、「偏りはない」という仮説のもとで観察データが生じる確率がその値以下である場合に、有意差があるとされます。有意水準を0.05にとった場合、実際に差はないのにもかかわらず誤って有意差ありとしてしまう確率が5%になります。

「統計的に有意差が出れば、血液型と性格の関連を証明したことになる」という誤解はしばしばみられます。例えば、能見正比古氏は、

実は、血液型と性格の間に大きな関係があるということは、高い有意性を示す統計資料が一つだけあれば、実証としての充分条件になるのである。このような関係が、ただ一つの分野に限られるということは、理論上あり得ないからだ。 (血液型活用学、P111)

としていますが、高い有意性を示す統計資料が一つだけあったとしても、それがタイプ1エラーであるという可能性について能見氏は見落としています。能見親子の著作に一貫して見られる問題点の一つは、タイプ1エラーに関する考察の少なさです。統計を扱うのであれば、当然念頭においておかねばならない基本的なことが、能見親子の著作には欠けています。それでは、有意を示す統計資料が一つや二つではないのであれば、血液型と性格の関係を証明したことになるのでしょうか。

ところが数多くの分野を調査する度に、文句ない有意性を示す統計値が、次々と現れてくる。血液型が人間気質の特徴を分ける重要な分類基準であることに、疑いをさしはさもうとすれば、もはや、統計学全体を否定するほかはない。 (血液型活用学、P111)

数多くの分野を調査すれば、つまり検定回数を多く行えば、数多くのタイプ1エラーが生じるのは当然のことです。血液型と性格がまったくの無関係であっても、例えば、1000もの分野を調査すれば、そのうち50の分野でP<0.05の、10の分野でP<0.01の、1つの分野でP<0.001の有意差が出ることが期待できます。検定回数が多くなることによって、タイプ1エラーが起こる確率が増えることを多重検定の問題と言います。実は、1000もの分野を調査する必要すらありません。A型はどうか、O型に関してはどうか、というように血液型別に検定を行えばそれだけで検定回数が多くなります。

ABO FANを見ていて、もっと酷いところを発見しました。本塁打ベスト10のデータ(O型6人、A型1人、B型3人)に有意差が無いという指摘に反論して、ABO FANは以下のように返事をしています。
 

 しかし、χ2値には別な計算方法もあるのです。もちろん知っていますよね?

 データを見ると一目瞭然ですが、O型とB型が圧倒的に多く、A型とAB型が圧倒的に少ないのです。

 そこで、O型+B型 VS A型+AB型でχ2値を計算してみると、
 (9−5.25)^2/5.25+(1−4.75)^2/4.75≒5.64
 ですから、危険率2%で有意になります。

 気分を変えて、A型+AB型が10人中1人以下である確率を計算してみましょう。これはご存じのとおり2項分布ですから、その確率は
 (1−0.475)^10+10×(1−0.475)^9×0.475≒0.016
 これまた、2%以下の確率になります。

 では、通算安打記録ではどうでしょうか?
 「通算安打ベスト10」の血液型はO型5人、A型1人、B型4人ですから、O型+B型 VS A型+AB型でχ2値を計算してみると、同じく2%以下で有意です。
 同様に、A型+AB型が10人中1人以下である確率も2%以下になります。

 それではというので、通算打点記録も計算してみると、O型4人、B型3人ですから、χ2値は6.33となり2%以下で有意です。
 また、A型+AB型が7人中1人もいない確率は(1−0.475)^7≒0.011なので2%以下です。

(ABO FAN, http://www2.justnet.ne.jp/~shozo_owada/mt_wh.htm)
血液型別どころか、A型+AB型、O型+B型といった場合分けが許されるのであれば、さらに試行回数が増えます。他にもこの検定には、後付けの検定と言う別の問題があるのですが、それはまた別のページで指摘する予定です。

また、恣意的なグループ分けによっても、容易に検定回数を増やすことができます。例えば、プロ野球選手の血液型のデータからは、投手、野手、一軍、二軍、セリーグ、パリーグ、球団別、ホームラン数、打率、打点、防御率、勝利数、与四死球数でグループ分けを行ってそれぞれ検定すれば、どれかには有意差が出るでしょう。政治家では、国会議員、衆議院、参議院、政党、役職、当選回数、年齢、性差、出身地、出身大学、などなど。これらのグループ分けの基準のうち連続的なものは、さらに恣意的なグループ分けが可能です。例えば、通算本塁打数ベスト40をホームランバッターとしてグループ分けして有意差がでなければ、通算本塁打数ベスト60でグループ分けしてみるなど。

ある集団(例えばプロ野球集団)に関してまとまった情報があれば、恣意的なグループ分けによって血液型の偏りについて有意差を見つけることは容易です。血液型に限らず、星座でも十二支でもなににでも偏りを見つけることはできます。サイコロをたくさん振ればいつかは特定の目が続けて出ることが必然であるのと同じです。そして、偏りができなかった部分を伏せておき、有意差があった部分のみを本に書けば、「科学的な」星座や十二支による性格診断の本が書けます。「有意差を示す統計値は次々と現れる。これを否定するには統計学全体を否定するほかない」とでも書いておくことを忘れないようにしましょう。

血液型性格判断に限らず、タイプ1エラーの問題は統計的手法を用いる科学には常につきまといます。複雑な形質を扱う遺伝学に関しても例外ではありません。これまでさまざまな遺伝子型と形質との相関が統計学的に有意であることが示されましたが、結局タイプ1エラーであったと考えられている例はたくさんあります。血液型性格判断と、遺伝学などの科学との違いはどこにあるのでしょうか。重要な違いは、真に誠実な科学者であれば、タイプ1エラーの可能性を常に自覚するところにあります。第三者による検証ができるように方法・手段・対象・結果を明示し、結論についても第三者によって検証されるまでは慎重な立場をとります。「一点の疑う余地もなく実証された」とは間違っても書きません。遺伝学の論文で、考察の部分でさえ、「may(かもしれない)」「suggest(示唆する)」という言葉であふれています。能見親子はこのような態度からほど遠いところにあることは既に示しました

科学は、結論そのものよりも結論に至る過程のほうが大事です。現在、HLA(Human Leukocyte Antigen:ヒト白血球抗原)とさまざまな自己免疫性疾患が関係していることは再現性よく示されています。しかし、もし過去においてHLAと自己免疫性疾患の関係を論文ではなく一般書でのみ発表し、第三者による検証を経ていないのにも関わらず「HLAと自己免疫性疾患の関係は科学的に一点の疑う余地もなく実証された」などと吹聴する人がいたとしたら、その人は科学的な手続きに従っていないとみなされたでしょう。一方、星座と性格の関連を論じたとしても、手段・方法を明確にし、責任ある雑誌に論文として発表し、有意差があっても再現性が見られない限り態度を保留する慎重な態度をとっていれば、科学的な態度といえます。


参考文献

能見正比古 血液型活用学 サンケイドラマブックス
鎌谷直之編 ポストゲノム時代の遺伝統計学 羊土社
ABO FAN http://www2.justnet.ne.jp/~shozo_owada/

ご意見、ご要望がございましたら、掲示板か、 e-mail:natrom@yahoo.co.jpへどうぞ。


遺伝学からみた血液型性格判断に戻る
進化論と創造論に戻る
2002/10/16