こんにちは。 今回は少し統計について書きたいと思います。
●ベイズ統計「見えないものをさぐる ―それがベイズ」を出版しました。詳しくはこちら
ベイズ統計の基本的な考え方は、事前確率と事後確率にあります。
例えば、コインAを2回投げて、表と裏が一回ずつでたとすれば、このコインAの表がでる事前確率は0.5 となります。このコインAで、再度2回投げたら2回とも表だったとします。すると、このコインAの表の出る確率、すなわち事後確率は0.75になります。
このようにある事象があった場合に、確率をどんどん変化させていくことをベイズ更新といいます。ベイズ更新は事象があるたびに行うことができるので、ベイズ統計は少ない試行でも、このベイズ更新によって、私たちが経験的に「そうだ」と思うような確率に近づいていくので重宝されています。
ベイズ的に考えなくても、上の例では、合計4回投げて表が3回でたのですから、確率0.75 には納得がいきます。
さて、ここで次のような事例を考えます。
昨年1年間、ある薬Bの効果を調べたら 確率 0.4 で効果があることがわかった。
この調査で100個のデータを集めたのか、あるいは1万個のデータを集めて集計した結果なのかはわかっていません。この薬Bが効く確率(事前確率)は0.4であると考えられます。今年になって、あらたに調査したら、20人のうち15人に薬Bが効いたことがわかりました。これをベイズ更新に当てはめて計算すると、
となり、この薬Bの効く確率(事後確率)は0.56 にUPします(※1)。しかし、これは事前確率0.4 の「重み」のようなものを考慮していません。そもそも 効く確率 0.4 の状況で、「20人のうち15人に効いた」状況が発生する可能性はわずか0.1% 程度なので、ありえない話ではあります。
(※1)事前分布は Beta(9.2 , 13.8) を仮定しています
対応としては、
- 「20人のうち15人に効いた」という事象を疑う。
- 少なくともあと1ヶ月間程度まって、データが集まるのを待つ。
- 気持ちよくベイズ更新を行って、薬の効き具合をあげる。
などがかんがえられますが、今回の例では3はないような気がします。ベイズ統計では、このベイズ更新に大きな特徴があり良さでもありますが、使いどころは考える必要がありそうです。
ベイズ更新をうまく利用した考え方に、厚生労働省の生命表や、物事の因果関係を確率的に結びつけた「ベイジアンネットワーク」があります。
ベイズ更新によりクルクルと確率が合理的に変化し、推測や検証には適しているように思います。ベイジアンネットワークについては別の機会に記載したいと思います。