データサイエンスの仕事の定義は尋ねる人や場所によって違いますが、先週AirbnbのデータサイエンスチームのトップのElena Grewalが、彼女のチームではデータサイエンティストを、アナリティクス、アルゴリズム、インファレンス(推論)という3つのグループに分け、それぞれのチームごとに別々に採用を行うようにしているとこちらのLinkedInの記事で発表していました。

ちなみに、私が関わるExploratoryではデータサイエンスを大きくビルダーアナリティクスの2つに分けた上で、このアナリティクスに特化した手法や技術に関するトレーニングをデータサイエンス・ブートキャンプとして提供しています。

ビルダーとは、主に機械学習などのアルゴリズムを使って、最終的にはユーザーが使うことになるプロダクト(製品やサービス)の一部に組み込まれる、もしくはプロダクトそのものになるといったタイプです。チャットボットやレコメンデーションエンジンエンジンをイメージしていただければいいと思います。Airbnbではこれをアルゴリズムと呼ぶようです。

もう一つのアナリティクスとは、人間がより良い意思決定を行うためのアクショナブルな情報をデータから導き出すタイプです。具体的には、データを加工したり、可視化したり、アルゴリズムを使ってデータの中からパターンやトレンドを見つけ出し、因果関係を推測したり、A/Bテストのような実験をデザイン・評価したりということを行います。Airbnbではこれをさらにアナリティクスインファレンスの2つに分けています。

話を戻しますが、ビジネス上の様々な課題を解決していくためにデータサイエンティストに期待されるスキルという観点から、Airbnbのようにこうした3つのグループへ分けるというのはありだなと思います。データサイエンティストとしてどういったキャリアを形成していくべきなのかを考えている個人の方や、これからどういった人材育成をしていけばいいのかと考えている組織の方には参考になるのではないかと思いましたので、こちらに共有します。

以下、要約


Airbnbのデータサイエンスチームの採用の歴史

Airbnbでの最初のデータサイエンスに関するチームはアナリティクスチームとよばれ、最初に採用された人はアナリティクス・スペシャリストとし雇われたそうです。2012年に現在のデータサイエンスチームのトップである彼女はデータサイエンティストとして雇われ、その後データのクオリティの問題に取り組むためにデータ・アーキテクトが雇われ、その後、データアクセスとツールの問題を解決するためにデータ・アナリティクス・スペシャリストが雇われ、機械学習のニーズが大きくなってきたことで、機械学習データサイエンティストが雇われるに至りました。こうしたタイトルの進化はチームが必要としていたことに応えるため、そして競争が激しい人材市場に応えるためでもあります。2015年にはいわゆるデータサイエンスのチームと呼べるものになりましたが、それでも、昔の名残りからアナリティクスチームのAをとってAチームと呼び続けていたりします。

2017年の中頃で80人ほどのデータサイエンティストがいて、当時は様々なチームの中に入って仕事をするという形をとっていました。ダッシュボードを作っている人や自然言語処理のモデルを構築している人、さらには意志決定のためのモデルを作り、A/Bテストのデザインをしている人達もいるといった具合で、様々なタイプの仕事を受け持っていました。

(下はデータサイエンスの仕事へ応募してくる人たちの数)

ですので、データサイエンスと一言で言ってもその意味することは様々です。ある人にとっては機械学習であり、ある人にとってはBI(ビジネス・インテリジェンス)であったりといった具合です。これはまだ新しく、毎日進化している分野なのでそれもそのはずです。

しかしこのことが、組織の中では混乱を生み、データサイエンティストの不満を招き、そのことが退職につながることもあります。データサイエンティストといっしょに仕事をするビジネス側の人達は何をデータサイエンティストに期待すればよいのかわからず、またデータサイエンティストとしても自分の役割が何なのかよくわからなくなってしまうからです。予測モデルを作る仕事ばかりやってきたデータサイエンティストの人達は、単に集計してフィルターしたりするだけの、いわゆるBIと言われるタイプのデータ分析は自分たちが出るまでもまいと思っています。また、アナリティクスを主にやってきたデータサイエンティストはモデルの構築やシステムへの展開などはエンジニアの仕事だと思いがちです。

また、最近の機械学習のブームのせいもあって、アナリティクスの仕事を行っているメンバーは、自分たちの仕事が機械学習の仕事に比べて重要でないと思ってしまいがちです。実際にはビジネスにとっては彼らの仕事は非常に重要なのにも関わらずです。というのも、ビジネスを担当する人達は意志決定に役立つ、もっと実行に移すことが出来るようなインサイトを求めているものなのです。

私達はビジネス側の人間を含めた多くの人たちがデータを使えるようにとデータユニバーシティという社内の教育システムに投資しましたが、それでもやはりデータの専門家というのはまだまだ必要なのです。

3つのトラック

そこで、3つのデータサイエンスのトラックを作りました。

一つ目は、アナリティクスで、良い質問の仕方が分かっていて、データから今までに気付いていなかったような情報を探し出すことができて、ダッシュボードやチャートを自動化し、ビジネスが問題を解決していくための提言を行えるような人たちです。

2つ目はアルゴリズムで、機械学習に得意な人たち、私達のプロダクトやプロセスに組み込むことでビジネスの価値を生み出すことに情熱を持っている人たちです。

最後がインファレンス(推論)で、これは統計学、経済学、そして社会科学のバックグラウンドのある人たちで、私達の意志決定を改善、そして私達の仕事の影響を測定することに統計の手法を使うことを得意とする人たちです。

チームにいる全てのデータサイエンティストが上の3つのエリアのうちの少なくとも一つの専門家であることが期待されていますが、もちろんビジネスでの必要に応じ、もしくは自分の興味によってはそれら複数にまたがるスキルを身につけることもできます。

(下はそれぞれの専門エリア毎の割合)

この3つのグループへ分けたことで、実際のビジネスでのニーズが現在の人材では満たされていないというエリアを見極めやすくなりました。

あるプロダクトマネージャーは、彼女の難しいプロダクトの領域でA/Bテストを行うための革新的なアイデアがデータサイエンスのチームから出てこないと不満を漏らしていました。そこで調べてみると、そのデータサイエンスチームにはインファレンス(推論)を得意とするデータサイエンティストがいなかったのです。ここまで分かると、これからそういったスキルを持った人を採用することもできますし、また既存のメンバーにそういったスキルを獲得することを提案することもできます。

どのタイミングでこうしたグループ分けが必要になるのか

Airbnbくらいの大きなデータサイエンスチームになってくるとこうしたはっきりとした違いを持ったチームを作るというのは理にかなっているかもしれませんが、もっと小さい組織にもこうした専門性を持ったグループ分けが必要かどうかと聞かれることがあります。

私はそうした組織では、まずはどんな問題にも対応できる何でも屋的なチームから始めなさいとアドバイスします。最初の頃はどんな問題でも必要に応じて対処していかなければなりません。そこでは、専門性という名のもとにただ座っているわけには行きません。時間が経ち、ビジネス上必要になってきてから初めて専門性によったグループ分けをしていけばいいと思います。

私達は、2015年に30人ほどのチームになるまで、専門性によるチーム分けはしませんでした。

(下はAirbnbのデータサインエスチームの年ごとの成長)


以上、要約終わり。

この3つの分け方でいいなと思うのは、もちろん裏には技術的な違いがあるわけですが、それでも基本的には実際のビジネス上のニーズに応えているというところですね。いたずらにデータサイエンスとは何かといったことを定義するのに時間をかけるのではなく、実際のビジネス上の問題を解決していくにはこうしたそれぞれ違った3つのタイプの人材が必要で、それらすべての人を彼女たちはまとめてデータサイエンティストと呼んでいるということです。

これで、データサイエンスに関わる、もしくは関わりたい人間は、よく巷にある、人間を超えた存在であるありとあらゆるスキルを持つことを期待されるスーパーデータサイエンティストになるのを目指すのではなく、自分の得意とする分野、もしくは興味のある分野のスキルの獲得と向上に気持ちよく望めることになるのではないでしょうか。これは、彼らAirbnbのビジネスにとっても、個人のスキルアップ、キャリアの形成にとってもいいですし、もちろん、採用にとってもいいでしょう。(この本文の記事はそもそも採用の宣伝を兼ねています。)

さらにもう一つ加えるならば、こうした方向性をしっかりと示すことができて明確に伝えることが出来るのというのはリーダーのいい見本だなと思います。これは、著者であるAirbnbのデータサインエス・チームのトップであるElena Grewalも本文の中で言っていることですが、彼女たちの属する組織のビジネスが抱える問題をデータを使って解決できるかどうかが彼女のデータサイエンスチームのミッションなわけです。そのことと、個人の目的やキャリアの形成をうまくマッチさせることで、強いチームはできていくのでしょう。

データを上手く使えるかどうかというのは、今や企業の生死を分けます。Airbnbのような何もないところからデータを使って急成長を遂げてきた企業はそれを企業のDNAとしています。そしてデータサイエンスというのはチームスポーツですので、どうやって強いデータサイエンスチームを作っていくかというのは、企業の成長のスピード、競争力にダイレクトに影響していくと思います。

現在、まずはデータ分析を始める、データを使ってビジネスを改善するというところで足踏みをしている企業も多いと思いますが、データ先進企業は着実にどんどんと前へ進んでいっています。データサイエンスの技術や手法だけでなく、こうしたデータサイエンスのマネージメントに関しても、学べるものはどんどんと学んでいきたいものですね。


データサインエス・ブートキャンプ10月開催!

この10月の中旬に、Exploratory社がシリコンバレーで行っているトレーニングプログラムを日本向けにした、データサイエンス・ブートキャンプを東京で開催します。データサイエンスの手法を基礎から体系的に、プログラミングなしで学んでみたい方、そういった手法を日々のビジネスに活かしてみたい方はぜひこの機会に参加を検討してみてください。詳しい情報はこちらのホームページにあります!