テューキー、デザイン思考、そしてよりよい質問

ジョン・テューキーという人の名前は皆さん聞いたことありますか?

それまでは、われわれ人間の持っている仮説をデータを使って検証するというのが統計学の主流であった70年代に、その仮説そのものをデータから構築していくことにもっと時間を費やすべきだと提唱した人です。

その後彼はそうした手法や考え方を一冊の本にまとめ、「Exploratory Data Analysis」という名前の本として出版しています。このExploratory Data Analysisという分析手法は日本語では「探索的データ分析」として知られています。

ちなみに私が仲間とやっている会社の名前であり、そこで作っているデータ分析のためのプロダクトの名前でもある「Exploratory」はここから来ています。

なので、私達にとってこのジョン・テューキーという人は、神様のような人で大変思い入れが強い人でもあるのですが、よく考えたら今まで落ち着いて外に向かって話したことがありませんでした。

そのうち機会をみてまとめてみようかなと思っていたのですが、最近、Jonhs Hopikins大学でデータサイエンスを教えるRoger D. Pengが、ジョン・テューキーの論文「The Future of Data Analysis」に関する考察を寄せていて面白かったのでここで紹介したいと思います。

以下、訳。


Tukey, Design Thinking, and Better Questions - Link

だいたい一年に一度、ジョン・テューキーのHopikins大学でデータサイエンスを教えるRoger D. Pengが、ジョン・テューキーの論文「The Future of Data Analysis」という1962年の発表された論文を読みます。かれこれここ17年ほど続けていますが、毎年何か新しい発見があります。

おそらくこの論文からの最も有名な引用句は以下のものでしょう。

正しい質問に対してのだいたいの答えのほうが、間違った質問に対する正確な答えよりもよっぽどいい。

この引用句のもとになる考えは論文の中にあります。

1つ目は、統計家は正しい答えを出すことを求められるべきでないと注意しています。統計は公式な結果を出すためにデザインされた唯一無二の権威のある仕組みだという考え方はデータ分析にとっての非常に危険であると言います。

2つ目は、統計の仕事の多くが、正確な(そして不適切な)基準に合わせて統計の手法を最適化することにばかり費やされているという現実をテューキーは批判します。

平均二乗誤差(mean squared error)を最小にするための手法を見つけるのは自由ですが、そのことがデータ分析のゴールになるべきではないということです。

しかしそれでは、いったい何がデータ分析のゴールなのでしょうか。

64ページに上るこの論文の中からテューキー自身がこの究極のゴールについて触れている文章を探し出すのは難しいです。しかし今回、読んでて思ったのは、テューキーのデータ分析に関する文章の多くが難解なのは、彼のゴールが私達のゴールとは違うからではないかいうことです。

データ分析のほとんどの時間、私達はデータを使って質問に答えようとしています。しかし、これはひょっとしたら間違ったアプローチなのかもしれません。

これは言いすぎだとしても、もしかすると、これは最初の段階ではやるべきではないのかもしれません。

私達が多くの時間を使って行っているのは、実はより良い質問を見つけようとしているのではないでしょうか。

テューキーはデータ分析の最初の3つのステップを以下のように説明します。

  • 問題の認識
  • 1つの手法を使う
  • それとは別の手法を使う

他の言い方をするなら、1つのやり方を試し、それから他のたくさんのアプローチを試す、ということです。これを読んだあなたは、なぜ最初からベストなアプローチ(もしくは正しいアプローチ)を試さないのか、そうすれば多くの時間を無駄にせずにすむのではないか、と。

もしかしたら、質問に答えようとした時にはそういった道のりを歩むものなのかもしれませんが、それは止めたほうがいいでしょう。

なぜなら2つの理由があるからです。

  • あなたはおそらく間違った質問をしているでしょうから、あまり真剣になりすぎないほうがいいでしょう。
  • ベストなアプローチとは、あいまいな基準のもとにベストと定義されているだけで、あなたの問題や質問にはおそらく適していないものでしょう。

こういったことをいろいろ考えた挙げ句、以下の図を描いてみました。

エビデンスの強さ vs. 質問のクオリティ(品質)

上の絵の中のゴールは右上の角にたどり着くことです。ここは質の高い質問と、とても強いエビデンスになります。

私の経験では、ほとんどの人がデータ分析を始める時、右下の角から始めていると仮定しています。ここは質問の品質が高い場所です。その場合、やらなくてはいけないのは最適な手法を選ぶことで、手元のデータからより多くの情報を絞り出すことが仕事ととなります。

しかし、現実には私達はほぼいつも左下のコーナーから始めます。そこはあいまいでうまく定義されていない質問があり、どの手法を使うかに関しても同じようにあいまいである場所です。

このような場合、データサイエンスは何をしてくれるのでしょうか。

私の考えでは、データサイエンティストにできることで最も役に立つことは、質問の質と明確さを上げるために必死の努力をすることです。

絵の中で言えば、ゴールはデータ分析をする自分たちをできるだけ右側に導くことです。その道のりで、データを見て、データの中にはないもの、例えば背景、リソース、ドメイン知識などを考慮し、たくさんの異なる手法を試していくことになるでしょう。

最終的に、データが私達に何を言っているのか理解し始めることができるようになります。

しかしより重要なのはどのような質問をデータに投げかけることができるのか、私達はデータに対してどんな質問に答えてほしいと思っているのか、こうしたことに関する理解を深めていくことができるのです。

データを探索する

そうすると、ここでのメッセージは、データ分析のゴールとはデータを探索するということのようです。言い換えると、「データ分析とは探索的データ分析のことである」、と。

これはそんなに驚くべきことではないでしょう。というのも、テューキーは探索的データ分析に関する「Exploratory Data Analysis」という本を書いているくらいなのですから。

この論文の中で、テューキーはデータ分析によくありがちなその他のゴールは、楽観的すぎるか、またはあまり意味のないものであるとして、却下しています。

もし、すぐれた探索的な手法があなたにもっと多くのデータを提供するとしたら、すぐれた探索的データ分析はあなたにもっと多くの質問、またはもっと良い質問を提供してくれているのかもしれません。

それは、より洗練された、より焦点のあった、目的がはっきりとした質問です。はっきりとした質問を構築していくことがいいのは、それがはっきりとした情報を提供することができる可能性が大いに高まるからです。

あいまいな質問には、せいぜいあいまいな答えが望まれるくらいで、そういったものは役に立つ意思決定に結びつくことはないでしょう。

探索的データ分析(もしくはただのデータ分析)とはあなたがデータを使ってよりよい質問を構築していくためのツールなのです。


以上、訳終わり。

あとがき

比較的最近、P値に関する論争に関連した記事を何回か紹介しました。

  • P値の問題は氷山の一角だ - Link
  • 「統計的有意」は禁止されるべきなのか - Link

このP値とは仮説検定に関するもので、実験(テスト)の結果得られた違いというのをデータを使って検証していく時に使う一つの尺度として使ったりするものです。このP値に関して、それが正しいか、問題があるかといった議論があるのはそれはそれでいいと思うのですが、それ以上にもっと重要なことあります。

それは、そもそもそこで立てている仮説、つまり検証しようとしている仮説が正しいのかどうかということです。

さらにその仮説を導くためには多くの質問をデータにしていくことになりますが、その質問が正しいのか、意味があるものなのかということもあります。

このエッセイにも書かれているように、テューキーはこの質問に関して、データを理解することによって、いかに正しい質問を作り上げていくのかが重要だと言います。

つまり、何度も何度もデータに対して質問を繰り返していく上で、もともとの目的(例えばお客のキャンセル率を改善したいなど)を達成するための、よりよい質問を構築し、その事によってはじめてよりよい仮説を導いていくことができるのではないかということです。

これは、最近の機械学習を使って予測精度を上げることにばかり夢中になっているトレンドに対しても言えることだと思います。例え、予測精度がどれだけ良くなったとしても、そもそもその予測をすることに意味はあるのでしょうか。もととなる仮説は正しいのでしょうか。そこにあるデータを使って予測することがほんとうにビジネスの問題を解決することになるのか、ということをもっと疑って考えるべきだと思います。

データ分析に重要なのは、仮説を構築する力ですが、そのためにはよりよい質問をデータを理解しながら作っていく力が必要になります。

なんといっても、データ分析のアウトプットの質はほぼこの探索的データ分析の段階でどれだけ質の高い仮説を構築することができるかで決まるのです。だからこそ、ここでしっかりと時間をかけて様々な角度からデータを理解し、「より洗練された、より焦点のあった、目的がはっきりとした質問」を作っていくべきではないでしょうか。


「探索的データ分析」トレーニング

上記でも触れましたが、探索的データ分析、つまりビジネスの問題を解決するための仮説をデータから構築していくための分析手法を、正しい形でもっと世の中に広めていきたいという願いのもと、その名も「探索的データ分析」というトレーニングを提供し始めることになりました。

初回はこの5月27日(月)です。

このトレーニングでは、実戦で使える探索的データ分析の手法、データを使った仮説構築の仕方、そしてさらにデータの可視化に関するスキルを身に付けていただこうとするものです。

興味のある方はぜひこちらのページをご覧ください!