テューキーの教え:データ分析する時に心に刻むべき10のこと

先週、テューキーの「The Future of Data Analysis」というエッセイに対する考察について紹介しました。

  • チューキー、デザイン思考、そしてより良い質問を作るための分析 - Link

「The Future of Data Analysis」の中でテューキーが言わんとしているのは、データ分析とはより良い質問を作り出していくことだ、ということでした。

この「The Future of Data Analysis」というエッセイが出版されたのは1961年、今からおよそ60年前のことですが、彼がこのエッセイの中で伝えようとしていたことは今日になっても色あせることがありません。

むしろ、現在データサイエンスの世界で起きている多くの議論というのはすでにこのエッセイの中に見つけることができます。

例えば、統計的に有意かどうかの判断が5%なのか1%なのかといったことに時間を掛けるのが無駄だとか、そもそもそういった仮説検定の手法やその正しさを議論するのに時間をかけるよりも、データから仮説そのものを構築くしていくことにもっと時間をかけるべきだとか、「最適化(モデルの予測精度を上げる)」に時間を使うよりも、よりよい質問を探すことに時間をかけるべきだ、といった今日のデータサイエンスの世界に生きる私達にとっては耳が痛いものばかりです。

「真理」というのは時代を超えて生き残っていくのだなと、改めて感心してしまいます。

そして、今日データ分析に関わるものであれば誰でも、賛成する賛成しないに関わらず、このテューキーの教えを知っておいて損はないと思います。

とういうことで、「The Future of Data Analysis」の中でテューキーが述べていることの一部を、何回かに分けて紹介していきたいと思います。

それでは、今回はそのエッセイの中の「データ分析にどういう態度で臨むべきなのか」という章を紹介します。


データ分析にどういう態度で臨むべきなのか

ほぼすべての重要となる態度は、「Xという事実に向き合う意思があるか」という文章で表すことができます。「向き合う」というのは心地の良いものではないかもしれませんが、歴史はそうしたことは可能だと示しています。

1. もっと現実的な問題に向き合う必要がある。

例えば正規分布の理論こそがシンプルな唯一の問題解決のフレームワークになるというような問題があったとき、そうした正規分布の理論を用いた手法から始めるのにはもっともな理由があるかもしれません。しかしそのことは、そこで分析を終えてしまうという理由にはなりません。

2. データ分析では、結果は「おおよそ」のレベルで十分役立つ

正式な仮説や前提というのは、現実世界の状況において完全に対応できるようなものではない。

例え結果が見かけ上は正確に見えるときでも、それを現実の世界で応用する場合には、「だいたい」というレベルになる。その結果、「だいたい」というレベルの推測や計算結果が現実世界で応用される時、「正確だ」というふりをしているもの以上に「だいたい」ということはないのである。

「だいたい」というレベルの結果は、他の誰かが「正確だ」という結果とほぼ同じようなものなのである。

3. 特定のデータ分析の技法(techniques)を評価するときには、実世界で使われたときの結果を集める必要がある。

データ分析の特定の技法が理想的な環境でどう動くのかに関する数学的、または実証的な研究にはとても大きな価値があるのは確かである。しかし、それでも現実の世界での実データをもとにした評価にはかなわない。

4. データ分析には「繰り返す」やり方が必要だ。

一つの分析の結果、別の分析が必要になるという事態を避けるために、一回きりの分析をするというのは「よさそう」な計画だ。

繰り返しや、計算処理を何度も行なわないですむために、1つの線でつながったいくつかの事前に想定されたステップからなる一つの分析を行なうというのは「よさそう」だ。

しかし、よいデータ分析がこうした「よさそう」ということによって行われると考えるのは現実的ではない。

どうやってよりよいデータ分析を行なえばいいかを学べば学ぶほど、計算処理は、シンプルになるというよりは、より広範囲に及び、またもう一度分析を行うというのがあたりまえとなっていくものだ。

5. 同じ分析の中で、シグナル(兆候)と結論の両方が重要だということを受け入れるべきだ。

例えば、確かなシグナルではないのなら、それは使えない。そうしたシグナルのいくつかは忘れてしまったほうがいい程に弱い。確かなシグナルに近いのであれば、ただちに次の作業に入ったほうがいいだろう。

データの構造が広がるに連れて、興味深いシグナルを探すために必要なものと、結論を出すために必要なものの間にあるギャップはより複雑になっていくものだ。

6. シグナルを探すためには、アドホックで形式張らない分析手順を自由に使いこなすことが必要だ。

私達の目的はデータが何を指し示しているのかを調べることなのだから、正式な分析手順、もしくは、必要以上のルールや原則といったものにとらわれるのは馬鹿げている。

7. 新しい領域や新しいタイプの分析手法を研究し始めるときは、シグナルを探すための手法が、結論を出すための手法より先に、洗練されていくというのが普通である。

データ分析において未知の領域を開拓するとき、データが何を提示しているのかを学ぶことにより多くの時間を費やすべきだ。何が結論として確立されるのかという質問に関することに考えをめぐらせるのは後でいいのだ。

これは、確率を含むほぼすべての懸念事項はもっと後の分析フェーズで考慮すればいいということを意味する。

8. 統計的に有意なのか、信頼に足らないのか、に関するエラー率の判断は二重基準が必要になる。

データ分析を学ぶ者や構築する者にとっては、エラー率の5%が実は4%なのか、または6%なのか、または5%と4.5%または5.5%といった取るに足らない小さな違いに真剣になるのは、意味のあることなのかもしれない。

しかし、実際にデータ分析を仕事で行うものとして、私達はエラー率に関してもっとアバウト(coarser)な態度で臨むべきです。それは、業界でよく使われているような1%とか5%といったものの違いを気にしすぎてもしょうがいないということです。

役に立つインサイトを得たいのであれば、結論を出すための手法は正確である必要はありません。実際にデータ分析を仕事で行うものとして、私達はこのことを認識しておく必要があります。

9. どのような実験的なサイエンスでも、ある状況のもと何が起きるかということに関しての確からしさというのは、実験や理論から直接得られるのではなく、一見関係なさそうに見える複数の事象の間にある相関から得られるものだ。

データ分析がこれまでもそうであったように、これからも実験的なサイエンスであるためには、実験的なサイエンスの態度を持って臨むべきである。

つまり、どのような分析のアプローチをとるかというのは、自分の手元にある状況によって決めていくというよりは、よりシンプルな、または似たような状況に関する理解をもとに参考に決めていくものだ。

10. データ分析とはユークリッド平面幾何学のような演繹的システム(logico-deductive system)の上に成り立つというような虚しい希望をもつのはあきらめ、本質的には実証的なサイエンスなのだという事実を受け入れるべきだ。

これを聞いてがっかりする人達もいるだろう。もしデータ分析が演繹的システムではありえないというなら、それは野暮なテクノロジーに過ぎないのではないかと。

私はそうした意見には賛同しない。データ分析にはテクノロジーといえる側面があるのはこれからも変わらない。しかし、知的な冒険、知見を導き出すことに対する願望、そして、「物事はほんとうはどうなっているのか」を知るために調査をしたり、得られた知見を実世界での経験と照らし合わせたりするといった、刺激的なサイエンスの側面も持っているのだ。


以上、要訳終わり。

あとがき

彼はプリンストン大学の統計学の教授で、データ分析を研究し、教える立場であったのですが、コンサルタントとして実業界で実際にデータ分析を行っていたことでも有名です。

なので、アカデミアと実業界の両方から見た、バランスの良い見方ができるのでしょう。

演繹法 vs. 帰納法

ところで、途中で演繹法というのが出てきますが、本文では「logico-deductive system」となっています。これはロジック(理論)が先にあって、それが実の世界にあてはまるのかどうかを検証するという手法です。

それに対して、帰納法というのがあります。これは、ガリレオ・ガリレイ、ニュートン、ジョン・ロックといった人たちがエンライトメント(啓蒙思想)の時代に作り上げていくモダン・サイエンスの手法でもありますが、理論から入るのではなく、現実の世界で起きている中での私達の「経験」を観察し、その中からパターンを認識し仮説を構築、ついには理論へと導いていくという手法です。

こうした当時においては新しい手法や思考法が、16世紀以降のヨーロッパ(後にアメリカ)でのサイエンスとそれをもとにしたテクノロジーの爆発的な進化を可能にします。そしてその果実をもっとも享受することになったのがヨーロッパ、そして後のアメリカであり、その圧倒的な力(政治、経済、軍事)をもって世界を支配していくことになるわけです。

実は、この「演繹法 vs. 帰納法」の違いというのは重要で、この「帰納」的な考えを「実証主義」としてさらに追求していくことになるのが独立以降のアメリカで、その最新の形態が最もよく見られるのがシリコンバレーです。このことは、シリコンバレーを理解する上でもっとも重要なことだと思います。

Google、Facebook、Netflixと言った会社の共通点は、理論であれこれ考えててもどうせ間違っているかもしれないのだから、まずはデータを使って現実の世界から学び仮説を構築する、そして現実の世界でその仮説をテスト(A/Bテスト)するということを毎日やっていますが、これは「帰納法」的なモダンサイエンスの思考法なのです。

話がそれましたが、これはデータ分析においてもそうで、テューキーの言うデータ分析とはこの「帰納」的な思考において欠かせない手法であり、まさにデータ分析こそが「帰納」的な思考の実践方法なのだと言えるのではないでしょうか。

そして、昔の時代からいる「統計とは最適化だ」と主張する人たちは、「演繹」的な思考を信じている人たちだということです。この最新の形態が、現在Kaggleなどで機械学習のモデルの精度を上げることに意味を見出している人たちと言えると思います。

ちょっと内容の濃いい話を駆け足でしてしまいましたが、データ分析というのは、あるテンプレートがあってそれに従ってやれば簡単に役に立つ「インサイト」が得られるというものでないという現実に私達は目を向ける必要があります。

問題解決のために、頭を使い、質問を考え続け、データを使って答えながら仮説を構築していくというどろくさい、「人間的」な作業を繰り返していかなければいけないのは、今日も一緒です。

もちろん、テューキーの時代に比べれば、今日ではテクノロジーのおかげで様々なデータを収集することが簡単になりましたし、分析手法も昔に比べれば断然と使いやすく効率的になりました。当時はまだ手でチャートを描いたり、計算をしたりしていた時代なのですから、それからすればだいぶ「簡単」になったと言えると思います。

そうしたテクノロジーの進化の恩恵を受けることで、より人間らしいことにもっと時間を費やすことができるようになったわけですから、そうした人間らしいスキルの習得と向上にこそもっと取り組むべきですね。

そして、こうした点こそもっと大学のような学校教育ではもっと教えていくべきではないかと思います。すでに決まり決まったお作法や、スキルではなく。


「探索的データ分析」トレーニング

探索的データ分析、つまりビジネスの問題を解決するための仮説をデータから構築していくための分析手法を、正しい形で世界に広めていきたいという願いのもと、「探索的データ分析」というトレーニングを提供し始めることになりました。

初回はこの5月27日(月)です。

このトレーニングでは、実戦で使える探索的データ分析の手法、データを使った仮説構築の仕方、そしてさらにデータの可視化に関するスキルを身に付けていただこうとするものです。

興味のある方はぜひこちらのページをご覧ください