Photo by NASA on Unsplash

データサイエンスとは結局何のためのものなのか? この言葉が初めて使われたベル研究所のレポートにその答えを探ってみた

データサイエンスという言葉は誰がつけたのか、どのように始まったのかと言う話をする時、よく話題になるのが、2012年にFacebookでデータを使ってグロースをやっていた Jeff Hammerbacher と、当時はLinkedInでデータ分析の仕事をしていたDJ Patilの間での議論から生まれたきたと言うのがあります。(リンク

しかし実はその10年前となる2001年にベル研究所のWilliam (Bill) Clevelandが、「Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics」というレポートの中で、それまでの統計学と当時すでにどんどんと進化していたコンピューターによるデータの処理技術を合わせたものとしてデータサイエンスという、一つの独立した学問の分野を提唱しています。

この中でデータサイエンスの学問に必要となる以下の6つの領域を提案しているのですが、それから20年近く経つ今となっても重要で、いろいろと考えさせられることが書かれているので、今さらですがここで皆さんと共有したいと思います。

ちなみにこのWilliam (Bill) Clevelandと言う人はデータの可視化の業界では大きな影響をもたらした素晴らしい本をいくつか書いている人でもあります。

以下、要訳。


Data Science Action Plan by William / Bill Cleveland - Link

1. 行動計画の概要

このドキュメントは統計学が技術的にこれまで対象としてきた領域をさらに大きくするための計画について書かれたものである。この計画は野心的でかなり大きな変化を起こすこととなるので、こうした変化によって新しくできる分野をデータサイエンスと呼ぶことになるだろう。

この計画の主な対象となるのはデータ分析をやっている人たちである。データサイエンスの技術的な領域がうまくいってるかどうかは、データを分析する人がデータからどれだけのことを学ぶことができているのかによって判断されるべきであるという前提があるからである。

この行動計画は大学の部門に以下の6つの技術的な領域を考えるべきと提案し、さらにそれぞれに対して割り当てられるべき時間と努力の割合を示すものであるが、それは政府や企業の研究組織に対しても有効なものである。

  • 25%:複数の専門分野にわたる調査:いくつもの専門領域間でのデータ分析に関する協業
  • 20%:データのためのモデルと手法:統計モデル、モデル構築の手法、確率推論をもとにした推測と分布の手法
  • 15%:データとコンピューティング(計算処理):ハードウェア、ソフトウェア、コンピューターを使ったアルゴリズム
  • 15%:教育:カリキュラムの計画と、小学校、中高、大学、博士課程、生涯教育、社内研修へのアプローチ
  • 5%:ツールの評価:実際にどう行ったツールが使われているのか、どんな新しいツールが必要なのか、新しいツールを開発するためのプロセスに関する研究
  • 20%:理論:データサイエンスの基礎、モデリングと手法、データのコンピューター処理、教育、評価に関する一般的なアプローチ

2. 複数の分野に渡るプロジェクト

調査の対象となる分野で出てきた問題を解決するためのデータ分析にこそが、データサイエンスにおける新しいツールや理論が生み出される最も大きな可能性があるのである。

データによって投げかけられた問題に直面したクリエイティブな研究者たちは、そこで得られたデータセットではカバーしきれないほどのたくさんの新しいアイデアを思いつくものだ。

統計学の歴史を振り返ってみると、例えばR.A.フィッシャーは農業に関するデータから着想を受けて実験計画法(the design of experiments)を生み出し、ジョン・テューキーは物理科学と工学に関するデータから着想を受けて数値のスペクトル分析を生み出し、ジョージ・ボックスは科学のプロセスデータから着想を受けてresponse surface analysisを生み出したように、最も偉大な進化というのはデータを分析する現場にいた人たちによってもたらされたものなのである。

データはデータサイエンスにおける発明のためのエンジンなので、この計画では時間と努力の25%をデータ分析の調査に割り当てるべきだと提案している。

これは全ての学校の教職員がデータ分析する必要があるということではない。しかしデータ分析はそれぞれの部署の血管といえるほどに重要なもので、それぞれの専門部門が研究の対象とする人たちの仕事をじゅうぶんに理解しているべきで、さらにそうした人たちからアイデアの着想を受けるべきである。

データサイエンスを学ぶ生徒はデータ分析を行うべきである。それは必須であり、データサイエンス分野の学士と博士課程の主要な時間と努力がこのことに使われるべきだ。

3. モデルと手法

推測と分布に関するたくさんの手法があるが、モデル構築に関する手法に関してはこれまであまり努力が払われてこなかった。

もちろん、特定のタイプのモデルに関してはたくさんの手法が開発されてきたのは事実である。例えば伝統的な線形回帰のモデルなどがそうだ。

しかし、多くの人たちに使われている他のタイプのものに関してはほぼないと言ってもいいだろう。例えば、ランダム・パラメーターのモデル群(ランダム効果、反復測定、ランダム係数、ランダム化ブロック、など)などがそうだ。

モデル構築のフェーズは分析の過程の中でもデコボコしている道のようなもので、推定と分布のフェーズというのはある意味平坦な道のりというのは、よくあることである。

モデルの構築は複雑である。というのもデータを探索することで得られる情報と、その分野の業務知識をもった人達によって作り上げられてきた理論といったデータの外にある情報を組み合わせていく必要があるからだ。

分析に関する仕様というのは、データから得られる情報、データ以外から得られる情報、そしてどれだけシンプルにしたいのかということの間でのトレードオフであり、それは公式ではない、その時その時で異なる過程を経て決まっていくというのはよくあることで、それを避けることはできないのである。

データ分析にはそうした仕様を定義していくのに役立つツールが大いに必要である。

4. データのコンピューター処理

コンピューター・サイエンティストがある朝起きると、今日のコンピューターの処理能力によって可能になったデータの蓄積、処理、そして転送によって生み出される情報の価値に気づき、そこにぽっかりとあいている穴を埋めようと試みた。そうしてできた一つの分野がデータマイニングだ。

しかし、データ分析をする人たちがここから受けることのできる恩恵は限られたものである。というのも、データを分析するときの考え方やアプローチに関するコンピューター・サイエンティスト達の理解は限られているからだ。

それは、コンピューティング環境に関する統計学者の理解が限られていることといっしょである。

そこで、この2つの異なる世界の知識を融合させることがイノベーションを起こすための力強い推進力となるであろう。

これが統計学者が知識を得るためにはコンピューティングにもっと目を向けることだという理由で、それは過去には数学に目を向けたのと同じことである。

データサイエンス部門には、データとコンピュータ処理の分野でキャリアを形成していくような人材、そしてコンピュータ・サイエンティストとパートナーシップを作れるような人材が必要となる。データサイエンスの生徒がコンピューターシステムやコンピューターの数学を学ぶことができるコースを用意するべきである。

ジョン・チェンバースは統計学者がコンピューターによるデータ処理に関する研究で成功できるということ、さらにはコンピューター・サイエンティストがそうしたことを高く評価するということを証明してくれた。

チェンバースと、データ分析と可視化のためのSシステム(Rの前世代のもの)はコンピューターの世界でもっとも栄誉の高いソフトウェアの賞であるACM ソフトウェア・システム賞を勝ち取った。

その時の評価の言葉の一部を引用すると、「Sシステムは人々がデータを分析し、可視化し、データを操作するこれまでのやり方を大きく変えた。」

ACMの賞の過去の受賞者はUNIX、VisiCalc、Tex、SMALLTALK、ポストスクリプト、TCP/IP、ワールド・ワイド・ウェブ、Mosaic、Tcl/Tkといったものを作った人たちに贈られていることを考えれば、どれだけSシステムがコンピューターサイエンティストたちに高く評価されているのかがわかるだろう。

5. 教育

教育の研究と教育の仕方を教えることに時間と努力を費やすことが重要だ。そうした研究とは大学での教育だけでなく、小学校や中高、企業研修、生涯教育のプログラムでの教育も同じくらい重要である。

データサイエンスの教育といってもたくさんあるが、その中には統計学者のトレーニングも含まれる。そして同じくらい重要なのが統計学者以外をトレーニングすることだ、世の中を理解するためにデータサイエンスがいかに役立つのかを伝えていかなくてはいけないのである。

6. ツールの評価

モデルと手法、そしてデータのコンピューター処理に関するアウトカムはデータ分析を行う人達にとってのツールです。そのためには実際に行っている人たちへの公式な聞き取り調査とそうしたツールを開発するプロセスの公式な研究が必要となる。つまり、データサイエンスを測定し評価する必要があるということだ。

統計学者はプロセスを測定し結果を分析することがプロセスの改善には欠かせないと主張するであろう。

統計学者はこの手法をデータサイエンスの研究そのものにも応用する必要がある。

どのような手法、モデル、コンピューター処理の手法とシステムが今日のデータ分析に実際に使われているのかを調査するべきである。

実際にデータ分析を行っている人たちがどのような新しいツールを必要としているのかに関する調査が必要だ。

さらにツールの開発プロセスはどのように改善されるべきなのかをあきらかにするための研究がされるべきだ。

7. 理論

数学的なものとそうでないものを含めた理論はデータサイエンスにとってはとても重要なものである。

データサイエンスのツール、つまりコンピューター処理の手法とシステムを用いたデータサイエンスのモデリングと手法は、データと理論を結びつけるものである。

新しいタイプのデータは新しいタイプのツールを作り出す。そして新しいツールはその開発の指針となるための新しい理論を必要とする。

数学は理論のための重要な知識の基礎となるものでだ。

生徒は最初からでなくとも、その時々で必要になった時に数学を勉強するべきです。ある一定レベルの数学の教育がコンピューターサイエンスの部門で必要かもしれない。

データはばらつく。そのばらつきは確率として考えられるのが普通だ。確率分布に関する優れた直感的な理解がばらつきをモデリングをする時の基盤となるのだ。

全ての理論は数学的ではない。実際、ほとんどのデータサイエンスの基本的な理論は非数学的だ。例えば、帰納的な推論であるベイズ理論の基本は、データから得られた情報とデータの外にある情報を一緒に使うという非数学的な考えかたをする。

基本的な考えはシンプルな数式で表現されるが、数学そのものが問題なのではない。数学的理論は分析のためのツールであり、基本的な理論を含むデータサイエンスの全ての領域に一筋の光を与えてくれるものなのである。

8. アウトカム

この計画の一つの成果物はデータサイエンスの分野におけるコアとなる要素の一つに数学があったが、そこにコンピューター・サイエンスが加わったということだ。これは知的な基盤をさらに大きくするものだ。

データサイエンスの生徒はこれまでの数学に加えて、コンピューターに関してのスキルもつける必要がある。教える側は数学とコンピューターに関して専門家レベルの知識が必要である。

その理由はデータ分析者に行き着く。今日、分析者にとってデータサイエンスで新しく興奮するような領域はデータのコンピューター処理における大きな可能性だからである。

もう一つの成果物はデータ分析プロジェクトに関しての深い取り組みに関するものだ。それはそれぞれの専門分野への統計的な思考法の適用である。

狭い見方をすると、データサイエンスとは統計学者によって使われるものだというものだ。広い見方をすると、データサイエンスは統計学の専門とする人にも、さらにそれぞれの分野のドメイン知識を持っている人達にも使われるものである。

そもそもどういう人を統計家と呼びべきか、呼ぶべきでないかすでによくわからなくなってきているというのが現実だ。

結局、全ての統計学者を足しても世界中にある一部のデータを分析するには全っくもって足りていないというのが現実である。


以上、要訳終わり。

あとがき

今回、もうかれこれ20年も前のレポートを紹介したのは、データサイエンスとはそもそも何なのかという疑問に答えるきっかけになればという思いがあったからです。

データサイエンスは、数学、そしてコンピューター・サイエンスの要素があるのでついつい、アルゴリズム、プログラミング、ビッグデータ(大規模なデータ)の処理の話に注意が向けられてしまうことが多いですが、やはりそもそもの目的というのは、データを使って世の中を理解していこう、もしくはビジネスを含めた自分の興味の対象に対する理解を深めていこうという部分だと思います。

データサイエンスにはデータプロダクトとディシジョン・サイエンス(意思決定のためのサイエンス)という2つの分野がありますが、特にディシジョン・サイエンスに関してはそうだと思います。

アルゴリズム、プログラミング、ビッグデータも全て重要ではあります。しかし、実際に現実の世界で自分たちのデータを自分たちで分析する、またはしようとしている人たちを中心に考え、彼ら彼女らがどういう問題を解決しようとしているのか、何が問題になっているのかということを真摯に考えていく必要があると思います。

その先にデータサイエンスの民主化のためのツールや教育といったものが作られていくのではないか、さらにその成功を何らかの指標を持って計測し、評価することで、さらなる改善が可能となるのではないかと思います。

かくいう私達も2年前にデータサイエンス・ブートキャンプを始めるまではそのへんの理解が甘かったと言わざるを得ませんでした。というのもそれまでは、自分たちが自分たちのデータをいかに簡単に、そして柔軟に分析できるかということをもとにExploratoryの開発そして改善を主観的に行っていました。

しかしUSと東京で3ヶ月に一回のペースで行うブートキャンプを始めてから多くのデータに携わる、もしくはこれから使っていきたいという人たちと出会うことができ、より多くの人達がどのような問題に直面しているのかということに対して、より深い理解を得ていくことができました。

こうしたブートキャンプのトレーニングに参加していただいた方たちからのフィードバックをもとにさらなるプロダクトとトレーニング両方の改善を2ヶ月から3ヶ月に一回のペースで繰り返しやってきた後にできたのが、現在のExploratoryであり、現在のブートキャンプです。

私達のミッションは「データサイエンスを民主化する」ということですが、その道はまだまだ始まったばかりです。これからも、データサイエンスは「より多くの人達が自分たちのデータを自分たちの手で分析することでよりよい意思決定を行っていくことができる」ために今日の最新のテクノロジー、アルゴリズム、分析手法を道具として使っていこうとするものです。

そうした認識のもと、より多くの人達にとって現実の世界で役立つデータサイエンスをさらに前進させていきたいと思います。

そして、データサイエンスやデータ分析を始めたばっかりの方、そしてこれからやっていきたいと思っている方、この分野はまだまだ進化の最中で、答えがなく、だからこそ刺激的でおもしろいものです。

ぜひデータサイエンスをみんなの手でさらに進化させていきましょう!

データサイエンス・ブートキャンプ、11月開催!

次回のデータサイエンス・ブートキャンプは11月です!

データサイエンス、データ分析の手法を1から、体系的に学び、現場で使える知識とスキルを身につけていただくためのトレーニングです。

データを使ってビジネスを成長させたい、または問題を解決したいという方は、ぜひこの機会に参加をご検討ください!

詳細はこちらのページにあります。