俺達が70％と言ったら、それは70％だということだ

ネイト・シルバーという選挙やスポーツの結果をフォーキャスト（予測）することで有名な人がアメリカにいます。彼は、「シグナル&ノイズ」という本も書いていますが、予測とか確率に興味のある人はぜひ読んでいただければと思います。

で、彼が運営しているFiveThirtyEightという彼と彼のチームが選挙やスポーツの試合があるたびに行なうフォーキャストを公表するウェブサイトがあるのですが、これまでのフォーキャストの結果がどれくらい正しかったのか（もしくは、どれくらい間違っていたのか）を評価したようなのですが、その結果を公表しています。

結論から言うと、彼らのフォーキャストの精度はなかなか高く、特にスポーツに関してはかなりの精度で当てているというのがわかりました。

ただ、このときに注意しなくてはいけないのは私達、フォーキャストを読み取る側にどれだけ確率に対する理解があるかということです。

例えば、タイトルにもあるように70％の確率であるチームが勝つという予測をしたとすると、それは10回中7回は勝つということであって、だからといっていつも確実に勝つということではないということです。

つまり、10回中3回は負けるということで、そのうちの1回が次の試合である可能性はあるのです。これは、よくある表裏のあるコインを投げてどっちが出るかを当てるという時に、確率は50％であるはずですが、表が5回立て続けにでることもあるのといっしょです。

それでは、70％といっても当てにならないではないかと思ってしまうところですが、これが腕のいいフォーキャスターだと、何回も何回もやっていると最終的には実際に70％に近くなってくるのです。

つまり、70％だとフォーキャストすることが1回あって、その結果を見ると外れていることがあるかもしれません。しかし、70％とフォーキャストすることが100回（それぞれは別の試合でも選挙でも構わない）あったとして、その結果を見ると、70回当たってて、30回外れているという結果に近づいていくはずなのです。

これが、そうでなく50回当たってて、50回外れているのであれば、そのフォーキャストはあまり正確ではないと言えます。

このように評価することで、どのフォーキャスターが信頼に足るか、腕がいいのかを比べることができます。

そして、ネイト・シルバーのチームが今回やっとのがまさにこれで、彼らがこれまでに行ってきたフォーキャストの結果を全て検証してみたところ、彼らのフォーキャストで使う確率は、かなり精度が高いということがわかったのです。

それでは、実際に彼がこの検証作業に関しての考察をまとめていたので、こちらで紹介したいと思います。

ちなみに、ネイト・シルバーは予測（Predict）とフォーキャスト（Forecast）を使い分けてて、彼が行なうのはフォーキャストだと言っているので、この記事の中でも「フォーキャスト」という言葉を使います。どちらも日本語で言うところの予測するということなのですが、予測（Predict）が、「勝つ」か「負ける」かの結果を「予測」するということなのに対して、フォーキャスト（Forecast）は、どれくらいの確率で勝つのか（または負けるのか）ということを予測するという意味を持ちます。これは、彼が著作である「シグナル&ノイズ」の中でも言っていることです。

以下、要訳。

When We Say 70 Percent, It Really Means 70 Percent - Link

私達、FiveThirtyEightのゴールはいつもみんなが確率についてもっと慎重に考るようになることです。

私達が将来の選挙やスポーツのイベントをフォーキャストするときは、現実の世界の不確実性のもととなるものや、何と何が相関関係にあるのか（例えばテキサスとフロリダの上院選挙のレースに相関があるといったこと）といったことの分析と説明に多くの時間を費やします。

Pハッキング（統計的優位という結果が出るようにデータを操作すること）やオーバー・フィッティング（過去を予測することはできるが、将来を予測するには役立たない予測モデルを過去データから作ってしまうこと）によってだまされないよう、将来の新しいデータでもいいフォーキャストができるよう、堅牢なモデルを構築するのに多くの時間を費やします。

このためにはサイエンスな要素がたくさんありますが、それと同時にアートな要素もたくさんあります。私達は、60％の確率と70％の確率の違いをとても気にします。

しかし、私達はいつもそのように評価されるとは限りません。私達のファンや批評家たちは私達の確率的なフォーキャストを1か0しかないようなバイナリーの予測として受け取ります。彼らは60％と70％の確率の違いを気にしないばかりか、彼らにとっては55％の確率と95％の確率は一緒であったりもするのです。

例えばアメリカの下院の選挙、大統領選挙の予備選、何千とあるバスケットボールの試合などといった非常に多くのフォーキャストを私達は公表しています。もしあなたが私達を貶めたいなら、たくさんの機会があります。というのもそこで公表されているフォーキャストの多くは、「間違っている」ことを避けられないからです。

FiveThirtyEightのフォーキャストはどれほどいいのか

私達はこの質問に答えるために、“How Good Are FiveThirtyEight Forecasts?”というプロジェクトを行いました。

キャリブレーション

そしてキャリブレーションという手法をを使って私達の過去のフォーキャストの結果を評価しました。

キャリブレーションとは、あるイベントが起こる確率と同じくらいの確率で、将来に渡る長い期間で起こるかどうかを測定することです。

例えば、あなたが80％の確率であるイベントが起きるとフォーキャストしたとしましょう。すると、そのようにフォーキャストした100回のうちの80回は本当に起きるべきです。これはいいキャリブレーションということになります。

しかし、もし実際には60回しか起きなかったとしたら、なにか問題があるということになります。あなたのフォーキャストはうまくキャリブレーションされていないということで、自信過剰なフォーキャストであったということになります。

逆に、もし98％の確率（100回中98回）でそうしたイベントが実際に起きていたとしたら、それは悪いフォーキャストということになります。この場合は自信過小（自信がなさすぎ）なフォーキャストだったということになります。

区別（Discrimination）

フォーキャストを評価するのはキャリブレーションだけではありません。「区別（Discrimination）」というのも重要になります。

「区別（Discrimination）」とはよく起こりうるイベントをあまり起こりえないであろうイベントから切り離せているかどうかということです。

例えば、バスケットボールのシーズンの最初に68チームのチームの勝率を68分の1とすることはキャリブレーションという点ではいいかもしれません。しかし、これはスキルを持った人によるフォーキャストとは言えません。

個人的には、フォーキャストを別の選択と比べることも重要だと思います。例えば他のモデルと比べて、市場の価格と比べて、またはこれまでの典型的なアイデアと比べてと言った具合にです。

もし他のみんなが10％か2％、もしくはそんなチャンスさえもないと言っている時に、あなたがXというイベントが29％の確率で起こると言ったとしましょう。（つまりイベントXは起きない方に触れているフォーキャストです。）そんな時にイベントXが実際には起こってしまった場合、あなたのフォーキャストは評価されるべきで、批判されるべきではないと思うのです。（つまり他のフォーキャストよりも断然いい結果を出しているわけだから。）

キャリブレーションの難しいところは、適正に測定するためにはかなり多くのデータを必要とすることです。もし80％の確率で起きると言った10のイベントがあったとすると、10回中5回、または10回中10回立て続けにそのイベントがたまたま起きるということはよくあることです。しかし100回、1000回とイベントを繰り返すに連れ、そういったまれな現象はなかなか起こりにくくなります。

FiveThirtyEightのキャリブレーションの評価

私達のキャリブレーションは一般的にとてもいいものでした。例えば、私達が70％の確率で起きると言った5,589回のスポーツと政治（選挙）のイベントに関して、そのうち71％が実際に起きていました。

また、5％の確率で起きると言った55,853のイベントは、そのうち4％が実際に起きていました。

私達の選挙に関するフォーキャストは歴史的に見て少し自信過小です。例えば、私達が75％の確率で勝利すると言った候補者達は実際には83％の確率で勝っています。

こうした違いは一般的には統計的には優位なほどではありません。というのも選挙の結果には高い相関関係があり、毎日1つ、時にはいくつものモデルを使って多くのフォーキャストを出しているからです。

しかしそれでも、何度も繰り返されているという点で自信過小は問題だと思うので、改善の余地があると思っています。

今回のように総合的に私達のフォーキャストの結果を調べたのははじめてのことです。私達のフォーキャストがやるべき仕事を行っていたということが確認されてほっとしています。

まとめ

私達が、70％の確率で起きると言った時、それがいつも起きるということは意味しませんし、起きるべきでもないのです。しかし実証的には、私達が70％の確率といったときには、それは70％の確率で起きるということで、30％と言ったときは30％の確率で起き、5％と言ったときは5％の確率で起きるのです。

私達のフォーキャストはいつも正しいということではありません。しかし、それらは正しいとあるべき頻度で正しいのです。

以上、要訳終わり。

あとがき

統計は難しそうなのでやらないという人はたくさんいると思います。しかし、やるかやらないかに関係なく、私達は統計的な手法によって出される統計的な結果を日々目にしているだけではなく、それによって無意識のうちに意思決定を行っていたりもします。

例えば、天気予報がわかりやすい例ですが、70％の確率で雨が降るというフォーキャストを目にしたとします。ここで、この70％という確率をもとに傘を持って外出したところ、実際には雨がふらなかったとします。

このとき、そのフォーキャストがあてにならないのかというと、そうではありません。というのも30％の確率で雨が降らないことも十分あり得るわけです。これが確率の解釈の仕方です。

こうした、予測であったりフォーキャストであったりの結果を私達は毎日何らかの形で目にし、思い思いに解釈し、無意識のうちに意思決定を行っているわけです。

これがビジネスの場で意思決定を行なう人はみんな少なくとも統計の知識を身につける必要があると思う所以です。ビジネスでデータを使う場合、例え他の人にデータ分析を任せ、自分の手を動かすことはないとしても、渡された分析の結果を正確に理解することができれなければ、酔っぱらい運転しているのと変わりません。

みなさんもぜひ、統計を毛嫌いせずに、英語よりも重要なスキルだと思って身につけていってほしいと思います。

データサイエンス・ブートキャンプ、7月開催！

次回ブートキャンプの7月の開催が決まりました！

データサイエンス、統計の手法、機械学習、データ分析を１から体系的にいっしょに学びたいという方は、ぜひこの機会に参加をご検討ください！

詳細はこちらのページにあります。

現在、早割期間中ですので、お早めに！