テューキーの教え : データ分析はサイエンスか?

前回に引き続き、今回もジョン・テューキーの「The Future of Data Analysis」の中からの抜粋をまとめてます。

前回は、「テューキーの教え:データ分析に必要なツール」ということで、データ分析に必要な道具に関しての話を紹介しました。

今回は、「サイエンス、数学、そしてアート」という章ですが、その中でテューキーはデータ分析と統計学は違うと言います。さらに、数学はサイエンスでないが、データ分析はサイエンスであると言います。

なんだか謎掛けのようですが、サイエンスの歴史を知っていると納得が行くと思います。そしてこの違いを理解することが、データ分析を意思決定に使う時にものすごく役立ちます。

毎回言っていることですが、データ分析に関するこうした深いインサイトがテューキーによってすでに1966の時点で出されていたということに、改めて脱帽です。

以下、要訳。


サイエンス、数学、そしてアート

極端な例を使えばサイエンスとアートが違うのは明らかだ。

しかしPhi Beta Kappa(ファイ・ベータ・カッパ / 大学生の友愛会)に入れるような生徒の場合は数学は人間的、SigmaXi(シグマ・サイ / サイエンスの領域で優秀な研究者のみが入れるグループ)に入れるような生徒の場合は数学はサイエンス的なショーであるので、数学のサイエンスにおける位置というのはあまりはっきりしていない。

実は、統計とデータ分析がサイエンスの中ではっきりとした居場所を確保できていないというのも驚くべきことではない。

何がサイエンスであるかに関しては様々な見方があるが、以下の3つのテストを満たしているかどうかというのは多くの人にとっての判断基準として受け入れられている。

  1. Intellectual content (知的な内容)である。
  2. 理解できるような形にまとまっている。
  3. 有効(妥当)かどうかの究極的な判断基準は実際の「経験」による実験によって行われる。

この3つのテストによると、数学はサイエンスではない。というのも、有効(妥当)かどうかの究極的な判断基準は、理論的な矛盾がないかということと、確率に対する同意であるからだ。

私が知る限り、データ分析は上記の3つのテストに答えることができているので、サイエンスと言える。データ分析とはある特定の対象によってではなく、普遍的な問題によって定義されるものだ。

統計学の居場所はどこにあるのかというのは統計家しだいで、有効(妥当)かどうかの究極的な判断基準としてデータ分析なのか、それとも統計理論なのか、どちらに従うことになるのか次第である。

あるときには一つのものに従い、別のときにはもう一方に従うことで、どっちつかずであいまいであるというのはときには便利であるもしれない。しかし、究極的な判断基準としてデータ分析と統計理論の両者を同時に採択するのは不可能である。

データ分析に従う一部の統計学を含むデータ分析は、数学の特徴に習うのではなく、サイエンスの特徴に習うべきでだ。特に以下の点において。

  1. データ分析は正しいのかどうかといった確からしさに関する問いではなく、何ができるのかということと、それが役に立つのかどうかという問いに対する答えを追い求め続けるべきである。
  2. データ分析は適度な割合でエラーを起こすのはしょうがないということを受け入れる必要がある。十分でない証拠からより多くの正しい答えを導き出すためには、これは重要なことである。
  3. データ分析は数学的な議論と結果を、意思決定のための根拠として使うべきであり、有効性を証明するための承認の印として使うべきではない。

こうした点は真剣に受け止められるべきだ。例えば、1.の点は、99.9%の信頼度があるなら確実であるとしようということは、「正しさ」をあきらめようと言っているわけではない。

もっと重要なのはそのアドバイスが正しそうだと思えるときにその手法を使う際の一般的なアドバイスを与えることができるということなのである。しかし、同時にそうしたアドバイスはときには間違ってることがあるということを忘れてはいけない。

全てのサイエンスにはアート的な要素がある。事実やよく確立された理論などを教える時、ある特定のサイエンスの分野でどうやって考えていくべきなのか、何がその時点で広く受け入れられている信条や理論なのかを生徒に教えるべきである。

データ分析もそれと同じことをするべきだが、その仕事は他のサイエンスの仕事よりも難しくなるのは避けられない。

物理学者は普通はその分野のプロのもとで長く集中した修行をするものだ。データ分析者の場合、たとえプロの統計学者だとしても、見習い期間中にプロのデータ分析者のもとで指導を受けるということはほとんどない。

これには3つの理由があり、それらは今後ゆっくりと変わっていくことができるはずだ。

  1. 統計学は数学の一部として教えられることが多い。
  2. 統計学を勉強する時にデータ分析に注意が向けられることはあまりない。
  3. 統計学の博士課程の者にとってその道のプロと緊密で深く過ごす年の数は、物理学や数学の博士課程の者に比べてかなり少ない。

そこで、データ分析(そしてそれに付随する統計学もそうであるのだが)はその本質の確かさをコミュニケートするのが難しくなる。

今日データ分析に関わるものは、意見をより明確にし、意見と現在理解していることを残る形で書留め(それらが間違っているかもしれないということがわかっていたとしても)、例え使ってわかりやすく説明し、しっかりと集められた様々なエビデンス(そして後のフェーズで、こうした結論の検証を行なうべきである。)をもとにした結論をレポートし、人間による判断の重要性を強調し、そうした判断がどうなされたのかを説明する必要がある。ただ単に、統計学者であればそうした手法や理論を採用すべきだと言うだけでは通用しないのである。

もちろん、そうしたことに努力しながらも、どれだけ信頼に足るのかに関して記述し、統計的な有意さに関する結論を導くために、観察結果を確証するための統計的な手法を使い続けていく必要があるのだが。

Martin Wilkの言うように、「良いサイエンスの印(hallmark)とは、モデルと理論を使うがそれらを絶対に信じないことだ。」ということを忘れてはならない。


以上、要訳終わり。

あとがき

テューキーは「統計学」と「データ分析」を切り離し、「統計学」はサイエンスでなく、「データ分析」はサイエンスだと言います。その理由は、「統計学」は数学の一環として教えられることが多く、その数学自体がサイエンスでないからだと言います。

なぜならサイエンスとは究極的な「有意性」を、現実の世界での経験を通した実験によって導くものだからです。

数学は現実の世界で実験によって証明されることよりも、理論の正しさだけによって証明されます。それに対して、データ分析は、現実の世界における実験によって証明される必要があります。

これは、いわゆる日本で言うところの「啓蒙思想」、英語では「Enlightenment」と言われる、1500年ころからのサイエンス革命の歴史を理解していると受け入れやすいことだと思います。

それまでのヨーロッパの人たち(そして世界中の人達)の思想や、自然の理解というのは、最初に理論ありきで、それを現実世界に照らし合わせて確証していくというものでした。

それが1500年ころから、サイエンスの世界であればガリレオ・ガリレイ、アイザック・ニュートンなど、哲学の世界であればジョン・ロック、デービッド・ヒュームなどの実証主義の人達によって歴史は作り変えられていくことになります。

つまり、それまでの宗教によって世の中で起きていることを説明していた時代は、サイエンスの登場によって現実の世界で私達が経験すること、または実験できることによって世の中のことを説明できる時代へと大きく舵を切っていくことになりました。

このことが、サイエンスをベースにしたテクノロジーの急速な発展を西洋にもたらし、それによってヨーロッパ、そしてアメリカの急速な軍事的、経済的な発展を可能にし、それによって世界を制覇していくことになるわけです。

話は少し脇道にそれましたが、この何がサイエンスで、何がサイエンスでないか、というのは重要です。

なぜなら、これこそがただの「統計学」と「データ分析」を切り分けるからです。そして、このことこそが、世の中にあるほとんどの「統計学」を専門にする人達がサイエンスとは程遠いところにいると言われる所以です。

私達も日本でデータサイエンス・ブートキャンプを提供していますが、そこでお会いする人たちからよく聞くのが、学校で教えられる「統計学」の授業のひどさです。わかりにくい、つまらない、どうそれが世の中の問題を解決することに役立つのか見えない、いったものです。

こういった「統計学」を専門として教える人たちの持つ知識や理論に対する理解は確かに素晴らしいものです。しかしいかんせん学校の外での実戦経験がないため、延々と続く理論的な正しさの追求となり、そのほとんどがただの机上の空論で終わってしまっているというのが現実です。

私達のいるシリコンバレーの勝ち残っていくスタートアップはどこもデータの使い方がうまいですが、彼らは理論的な正しさよりも、いかに多くの仮説をデータから導き、それらをいかに速く実験(A/Bテスト)するかに重きを置きます。そして、最終的には人間による判断が強調されます。データ分析した結果、はっきりとした結果が得られなかったというのはよくあることです。そこでビジネスでは、何が現在わかってて、わかってないのかをはっきりさせた上で、すばやく意思決定を行っていくことが求められます。わたしがよく言っている、「データ・インフォームド」な意思決定というやつですね。

これは、私達Exploratoryもいっしょで、特に私達のような小さなスタートアップの間はデータの量にも限りがあるので、はっきりとした結果がデータ分析から得られなかったというのはよくある話です。しかしここで待っていることはできません。

そこで最終的には、データ・インフォームドな意思決定をすばやく行っていくことになります。もちろん、ここで意思決定して終わりではなく、その後もモニターしていくことで、改善のチャンスが得られるわけで、そうやって間違いを犯すことを恐れずに絶えず改善しながら前へ進み続けていくということになります。

勘違いしてほしくないのは、「統計学」が重要でないと言っているのではありません。それは本文中のテューキーも同じです。「統計学」の手法というのは、むしろ現在のようなビッグデータの時代にこそ重要なものです。

「データ・ドリブン」ではなく、「データ・インフォームド」な意思決定には統計学の知識と手法を使いこなすための知識が必要です。それは、例えばNetflixのようなシリコンバレーの企業はプロダクトのチームの上に上がっていくためにはマスター(修士)レベルの統計学の知識が必要だと言われる所以です。

だからこそ、「統計学」の手法を、実際のビジネスを成長させていく、またはビジネスや組織が現実に抱える問題を解決させていくという観点からもっと多くの人達に教えていくことが求められているのだと思います。

データサイエンス・ブートキャンプ、7月開催!

次回のデータサイエンス・ブートキャンプは7月です!

上の”あとがき”にも書いたように、データを使ってよりよい意思決定を行い、ビジネスの成長のためのよりよい施策を打っていくためには、統計学を含むデータサイエンスの手法を習得する必要があります。

私達も、机上の空論ではなく、最終的にビジネスの現場でどう活かすのかという視点から、「データサイエンス・ブートキャンプ」をどんどんと進化させていっています。

次回は7月、その次は11月です。ぜひ「データ・インフォームド」な意思決定を行いたい方、統計を基礎からしっかりと学びたいという人は参加してみてください。

詳細はこちらのページにあります。