Photo by Mehrshad Rajabi on Unsplash

「統計的有意」は禁止されるべきなのか

先週はネイチャーというサイエンス系の雑誌で、800人ほどの科学者たちが「統計的有意」というコンセプトに反対を表明したとして、データ業界ではちょっとした話題になっていました。

簡単にまとめると、実験の結果を検証する際に使う統計学の手法から得られる結果を、「統計的に有意」かそうでないかといった、まるで2つしか答えがないように捉えるべきではないとするものです。

これはある意味最近のトレンドでもあるので、とくに新しいものではないと思います。統計学会でも公式に議論されていることですし、心理学系の雑誌などでも、「統計的に有意」かどうかの根拠として、P値だけをレポートすることが禁止されるようになったりとしています。

こちらのノートでもこの辺のことには触れたりもしています。

ただ、こういうタイプの記事が書かれると、それを専門にしていない人達の間で、ヘッドラインのつまみ食いのようなことが発生してしまい、記事の筆者が伝えようとしていることとかけ離れた事が延々と議論されてしまうことが多々あります。

そこで読者の皆さんには、しっかりとここで議論されているのことの本質を抑えてほしいと思い、ここに要訳して紹介することにしました。


Scientists rise up against statistical significance - Link

私達はP値を禁止にしようとしているのではありません。また、P値が、例えば製造プロセスが品質管理の基準を満たすかどうかなどといった、特定の領域の中での意思決定のための基準になることができないといっているわけでもありません。

訳者注:P値(Probability / 確率)とは、例えば、A/Bテストをしていたとして、AとBには違いがないと仮定した(帰無仮説)ときに、現在得られた結果、例えばAの方がBよりも5%よいという結果かそれより極端な結果(この場合は5%以上)が得られる確率のこと。

また、「統計的有意」に反対するからといって、何でもありだと言っているわけではないので、弱いエビデンスの結果が突然信頼できるものになるというような世界をサポートしているわけではありません。

むしろ、これまでにも多くの人に言われていたように、得られた結果が科学的な仮説をサポートするかどうかを決めるために、2つの結論しかもたらさないような典型的なP値の使用を止めようと言っているのです。

問題は統計学的というよりは人間そして人間の認知力の方にあると言ったほうがいいでしょう。結果を「統計的に有意」か「統計的に有意でない」かの2つに分類することで、人々はその2つに割当てられたものはそれぞれ全く違うものだと認識してしまうのです。

これは、こうしたP値を使った統計手法だけでなく、他のどんな手法でも二元論的な解釈の仕方をするものであれば同じ問題が起きるのです。それは頻度派であってもベイズ派であっても同じです。

残念ながら、「統計的に有意である」というしきい値を超えさえすれば得られた研究結果がもっともなのだという間違った思い込みのせいで、科学者と専門誌の編集者がそうした研究結果を正しいものとして出版してしまうことになり、こうして歪んだ論文が世に出ていってしまうのです。

「統計的有意」に対する厳格な信仰は、研究者が自分たちの望む結果を統計的に有意と言うため、または、薬の潜在的な副作用といった望まない結果を「統計的に有意でない」と言うために、都合のいいデータと手法を選択するということにつながります。

もう一度言いますが、私達はP値、信頼区間、その他の統計的な指標をを禁止にしようとしているのではありません。私達が言いたいのは分類するためのツールとして使うべきではないということなのです。

頻度統計の「統計的に有意」かどうかといった手法、またはベイズ理論のような他の統計的手法を用いた場合でもこのように分類してしまうような手法の使用を禁止しようと言っているのです。

最も重要なのは、謙虚な姿勢で臨むということです。結果を評価するには信頼区間を計算するのに使われた統計的前提が正しいかどうかが重要になります。現実にはこうした前提というものはかなり不確かなものです。こうした前提条件をはっきりさせ、結果をチャートを使って可視化したり、別のモデルをフィットさせたりして検証することで得られた結果を全て公表するべきです。

統計値が何を示していようが、あなたの得た結果につながる原因を提示することは良いことですが、その結果を説明することができうるすべてのことを議論するべきです。自分に都合のいいものだけではなくです。

推論は科学的に行われるもので、それは統計的かどうかよりももっと大きなものなのです。背景となるエビデンス、研究のデザイン、データの品質、そしてその研究対象の下に横たわるメカニズムの理解といったものは多くの場合、P値や信頼区間といった統計的な指標よりももっと重要なものです。

「統計的有意」という手法を止めることに対する反対意見の多くは、YesかNoという意思決定を行うために「統計的な有意性」が必要だというものです。しかし、規制、政策、ビジネスといった環境での意思決定に必要なのは、統計的に有意かどうかだけで意思決定を行うことはありえません。そうした環境では、コスト、ベネフィット、そして起こりうる全ての結果の起こる確率をもとに意思決定を行うものなのです。

「統計的有意」を使わなくなるとどうなるのでしょうか?

手法の選択とデータの加工がより詳細でニュアンスを含んだものとなることを望みます。分析を行ったものは結果に対する推定値と不確実性を強調し、例えば信頼区間の上限値と下限値を明記するといったかたちで。

結果は統計的な有意性の検定だけに頼ることがなくなります。P値が記述されるときは、その値そのものが例えば、P値は0.021といったように正確に記述されるべきで、統計的に有意かどうかといった符号が付け加えられるべきではありませんし、さらにP値が0.05より「大きい」とか「小さい」といった二元論的な表記がつけられるべきでもありません。

得られた結果をどのように解釈するか、またはその研究結果の論文が発表されるどうかは統計的に有意となるしきい値を満たしたかどうかをもとに決められるべきではありません。

人々が統計ソフトに使う時間は減り、もっと考えることに使う時間が増えるでしょう。

私達が求める「統計的有意」の廃止と、適合性(Compatibility)区間としての信頼区間の使用は万能薬だとは言えません。統計の世界での多くの悪い慣行を防ぐことにはなるとは思いますが、それと同時に新しい悪い慣行も作られるでしょう。ですので、科学の業界は統計手法の間違った使い方に対して絶えず目を見張らせておくべきなのです。

単純な、統計的に有意かどうかといった分類を止めることで、自信過剰な主張、保証されていない「違いがない」という宣言、そしてオリジナルの結果と再現しようとしたときの結果に高い適合性があるにもかかわらず、「再現の失敗」についてのばかげた宣言といったものを抑制するのに役立つでしょう。

「統計的有意」の間違った使い方は科学のコミュニティとまたそうした科学的なアドバイスにたよった人たちに多くの災いをこれまで起こしてきました。P値、区間、その他の統計的な指標にはそれぞれの使われ方が今後もありつづけます。しかし、「統計的有意」という考え方は立ち去るべきです。


以上、要訳終わり。

あとがき

こうしたP値や統計的有意性を使った仮説の検定を行うことが正しいかどうかという議論は何も今に始まったものではなく、ずいぶん前から、統計学の世界では議論されてきたことでもあります。

データ業界ではPハッキングという言葉が使われたりしますが、研究者が自分の主張したい結果を得るために都合よくP値を調節したりすることです。業界では一般的にP値が「5%より低ければ」という標準のようなものが独り歩きしてしまっているので、これをいいように利用する人たちがいたりするわけです。

ただ、一般的には、そうした明らかな悪意がある場合よりも、ただ単純に研究者の統計学の勉強不足による、うっかりミスのようなものが多いとも言われていたりします。

ここで難しいのは、それではこうした「統計的有意」を使った手法に問題があるからと言ってそれよりも優れた手法があるのかと言うと、残念ながら現状ではあるとはいえません。

そこで、こうした「統計的有意」であったり、P値に対する問題があったとしても、それを解決するための現実的で最も効果的な方法は、研究者や分析者をはじめ、さらにそうした研究結果による影響を受けることになる一般の人達に対しても、もっと統計学の教育を行っていくべきではないかと思います。

そもそも、P値が何であって、何でないのか、「統計的有意」または「有意でない」はどのように導かれるのか、その前提は、そのリスク(タイプ1エラー、タイプ2エラー)は、などといった知識はもちろんのこと、こうした「統計的な有意性」をどう解釈することで、よりよい意思決定に導いていくことができるのかということをもっと多くの人により正確に伝えていくべきだと思います。

本文でも言われていることですが、結局この世の中は不確実で、あいまいであるわけですから(特に人を相手にしているビジネスの場合は)、「Good」、「Bad」みたいな絶対的な判断はそもそもできないということを前提に、確率的に考え、リスクと不確実性を考慮した上でよりよい意思決定を行っていくことが求められます。

「統計的有意」を「禁止」ではなくて、「統計的有意」を「使いこなす」

こういった意味で、この記事が提言している問題とその背景は正しいと思うのですが、ただその解決策として、「統計的有意」の禁止や、信頼区間に違った名前をつけるという、ある意味簡単な解決策を提案するにとどまってしまっているところが残念です。

そもそも、この世の中は不確実であるがゆえに「Good」、「Bad」みたいな二元論では片付けられないと言っている人たちが、「統計的有意」を「悪」と決めつけてしまっているところが、結局のところどうしても二元論で物事をかたづけてしまいたい私達人間の方に問題があるのだなと思ってしまいます。

統計は簡単ではありませんし、近道もありません。知れば知るほど、さらに知ってないことに気づくという奥が深い分野でもあります。さらに多くの場合はあいまいな人間を対象にしていることが多いので、確実な答えがでにくい世界でもあります。

しかし確実な答えが出せないからあきらめてしまうのであればそれは宗教の世界に戻っていくということになります。そうではなく、サイエンスを使って真実に近づいていこうとする私達人類の努力こそが、啓蒙思想の時代以降、ここ500年ほどの人類の進化つまり、われわれの社会の近代化を生み出したわけです。

話が少し大げさになってしまいましたが、社会でも、経済でも、ビジネスでも、真実に近づいていきたいのであれば、サイエンス的な手法を取らざるを得ないと思いますし、そうであれば統計学をツールとして使いこなすというのは、最低限必要なスキルだと思います。

「統計的有意」を「禁止」ではなくて、「統計的有意」を「使いこなす」、または「統計的有意」に「騙されない」ということこそが重要で、そのためには、統計の手法の正しい使い方をもっと世の中に広めるていきたいと思います。


データサイエンス・ブートキャンプ、7月開催!

次回ブートキャンプの7月の開催が決まりました!

トレーニングのコンテンツとトレーニングで使うExploratoryが、学びやすさという点でかなりパワーアップしていますので、このさいにデータサイエンス、統計の手法、データ分析を1から体系的にいっしょに学びたいという方は、ぜひこの機会に参加をご検討ください!

詳細はこちらのページにあります。

現在、早割期間中ですので、お早めに!