テューキーの教え:データ分析に必要なツール

前回に引き続き、今回もジョン・テューキーの「The Future of Data Analysis」の中からの抜粋をまとめてます。

今回は、データ分析に必要なツールに関してです。

ここでは、ツールと言っていますが、これは特に何かのプロダクトやプログラミング言語(例えばExploratoryやR言語)といったものを意味しているのではなく、データ分析に関する手法のようなものと捉えるのがいいと思います。例えば、線形回帰モデルを使った回帰分析や可視化の手法だったりということになります。

この「The Future of Data Analysis」というエッセイは1962年に出版されているので、もうかれこれ60年前になります。それにも関わらず、今日でも役に立つインサイトがいっぱいあるので学ぶことが多いですが、それと同時に、60年たった今でもここに書かれていることが当たり前になっていないのは残念でもあります。

今回紹介するのは、「What are the necessary tools?(必要となるツールとは)」という段落です。

本文では、Estimateという言葉が出てきます。これは推定という訳が正確なのかもしれませんが、今日の多くの人がより馴染みのある「予測」という言葉を使って訳してます。

以下、要訳。


The Future of Data Analysis by John Tukey - Link

データ分析の世界に進化を求めるなら、データ分析のツールとデータ分析に対する私達の態度にもっと注意を向けるべきだ。このことをしっかり認識できていれば、後は自ずとうまくいく。

1. ツールの使い方にはまっていてはいけない

過去に役に立つと証明されているツールを無視するべきではない。しかし、それと同時に重要なのは、それらの使い方にだけハマってしまうことのないようにしなければいけない。

代数幾何(Algebra)や分析が助けにならないときもある。そんなときは、私達が得意とする直感とオリジナリティをどう使えばいいのかを学ばなくてはいけない。

2. ツールの前提が成り立たない時に何ができるのか

テクニック(技法)やプロシージャー(手法)がその前提となっている仮説が成り立たない時にさえ、何ができるのかにもっと注意を向けるべきだ。

こういうときには、ネガティブでなく、ポジティブな態度で臨むべきだ。予測するための理想的な場所から分析を始めたり、予測モデルがどれだけはまるのかといったことを調べたりするだけでは十分とはいえない。

手元にある予測変数をもとに、ふさわしい目的変数を探し、予測するのにどの予測変数がよりふさわしいのかといったことを調べることにもっと多くの時間を割けるべきだ。

「統計は最適化」だという見方をする者にとっては、こうした調査や分析はあとづけである。

しかし、「データ分析はデータをよりよく分析することだ」という見方をする者にとっては、ある手法が私達に何を伝えようとしているのかを理解しようとすることは明らかに賢明なのである。

現状をはっきりと理解するには、こうしたアプローチの重要性を強調してもしすぎることはありません。

3.「なぜに答えるため」と「シグナルを探すため」の分析手法がより重要になる

「なぜに答える」ための分析、そして結論を出すためではなく「シグナルを探すため」の分析手法は、将来のデータ分析において大きな役割を果たすでしょう。

訳者注:「なぜに答える」というのは私の要訳で、本文では「Diagnosis(診断)」となっています。分析の世界では、Descriptive(記述)」というタイプの分析が「What」に答えるための分析で、それとは対照的に「Diagnosis(診断)」が「Why」に答えるための分析と言われていたりします。

データを可視化する手法は、「なぜに答える」ための分析と「シグナルを探すため」の分析の両方で大きな可能性を持っています。

ここでは紙面が足りないのでじっくりと述べることはできませんが、本来であればもっと時間をさいて話をするべきものです。

今ではこうしたチャートは手書きではなくコンピューターによって描かれることが多くなってきました。

チャートや説明のためのアウトプットは、「なぜに答える」ための分析と「シグナルを探すため」の分析を人間が行なうために使われてきました。

ただ最近では、「なぜに答える」ための分析と「シグナルを探すため」の分析がより自動化されるようになるにつれ、むしろマシンによって得られた分析結果がどれだけ正しいのかを確認するためのツールとして「データの可視化」が使われることが多くなってきました。


以上、要訳終わり。

あとがき

「なぜに答えるため」と「シグナルを探すため」の手法がより重要になる、というのはそれまでの主流であった、検証のための分析、もしくは結論を出すための分析に対して、もっとデータそのものを探索して、そこから仮説を導く出すことに時間をかけるべきだという彼の思想がもととなっています。

この考えは、その後1977年に「Exploratory Data Analysis(探索的データ分析)」という本の中で、データ分析の手法として確立されることになります。

こうして「Exploratory Data Analysis(探索的データ分析)」という分析手法は、今日のデータサイエンスの世界でも、ビジネスにおけるよりよい意思決定を行なうためのインサイトを得るための手法として広く一般的に使われる手法となっています。

ところで、当時のテューキーによる予見で見逃せないのはデータの可視化がデータ分析の中で果たす役割についてです。

彼が言うには、データの可視化とは、人間が手動でこねくり回してデータの中からインサイトを探していくためのツールとしてだけでなく、これからコンピューターによって自動的に導かれた相関関係やパターンを人間が直感的に理解したり確認したりするためにも大きな役割を果たすだろうということです。

現在では、データサイエンティスト達の間では、例えば機械学習のランダムフォレストや統計学習の回帰モデルなどを使って、どの変数間に関係がありそうか、どれくらいの影響があるのかというのを、まず最初に「自動」で行い、そこで得られたインサイトをもとにチャートを使って相関関係を確認、さらに深く探索していくことで、効率的にデータを分析し、仮説を構築していくのが「探索的データ分析」のよくある分析パターンとなっています。

これを、1960年代にすでに見越していたというのはさすがです。

1960年代といえばまだ、多くのチャートは手書きだった時代です。この後に出てくる彼のExploratory Data Analysisの本の中も手書きのチャート満載です。(笑)

しかし、こうした分析手法は実際にはまだデータサイエンティストという一部の人達の間でしか「当たり前」になっていないというのは残念なかぎりです。


「探索的データ分析」トレーニング

「Exploratory Data Analysis」が出版されてから50年たった今でも、データ分析を行っている多くの現場では、適当な質問のもと、あてもない「探索的データ分析」が行われ、ビジネスにとって何の意味もないインサイトしか得られていという話はよく聞きます。

そこで、テューキーが50年前に提唱したほんとうの「探索的データ分析」の意図を引き継ぎ、さらに今日の最新のテクノロジーと手法を使うことで、2019年ならではの「探索的データ分析」ができるようにと、正しい「探索的データ分析」を行なうための手法と思考法を身に着けていただくためのトレーニングを提供し始めることになりました。

初回はこの5月27日(月)です。

このトレーニングでは、実戦で使える探索的データ分析の手法、データを使った仮説構築の仕方、そしてさらにデータの可視化に関するスキルを身に付けていただきます。

興味のある方はぜひこちらのページをご覧ください