こんにちは、Exploratoryの西田です。

先週はデータサイエンス・ブートキャンプ・トレーニングを行うために日本に行っていましたが、こちらシリコンバレーにいると普段経験することのない寒さと大雪を久々に味わうことができました。(カリフォルニアの気候に甘やかされてる私には少し辛かったですが。(笑))今回のトレーニングでは20名を超えるデータに興味のある方達と新たに出会うことができ、さらに以前のトレーニングに参加された方達と勉強会、懇親会といったかたちで再会でき、たいへん満足の行く一週間となりました。

今月はExploratory v4.2のリリース、グローバル向けのオンライン・トレーニング、そして日本でのブートキャンプ・トレーニングと、年明け早々慌ただしかったですが、それらを通していただいたフィードバックをもとに、Exploratoryの次期バージョンの開発、さらに3月に東京での開催が決まった次回のブートキャンプ・トレーニングで使うマテリアルの刷新に関する作業を始めています。

次回のブートキャンプは3月の28日、29日、30日となりますが、来週の水曜日で早割が終わりますので、この機会に興味のある方は是非参加を検討していただければと思います。

それでは、さっそく今週も行ってみましょう。

最近の興味深い英文の記事

どうやって機械学習によって破壊されるマーケットを探すか

How To Identify A SaaS Market That Machine Learning Will Disrupt - Link

シリコンバレーのRedpointというベンチャーキャピタルでパートナーをやっているTomasz Tunguzが、AI、機械学習を使ったSaaS (Software as a Service)系のスタートアップの現在のトレンドをまとめていたので、以下に簡単に抜粋しておきます。

以下、抜粋


会社への電話の自動化された対応、経費精算の監査、怪しいアクセスの検知などを含め、今日、SaaSのプロダクトを作るにあたって機械学習というのは欠かせないものとなっています。ただ、そのどれもがすでにあるワークフローの改善であり、現実にはコストの削減と言うかたちで使われるにとどまっているというのが現状です。

これには幾つかの理由があります。

まずは、機械学習のモデルをトレーニングするには大量のデータが必要となりますが、繰り返しの多い既存のワークフローはこうしたデータを大量に作り出すことができるので、このデータをもとに機械学習のモデルを作って、そうしたワークフローを自動化するのに都合がいいです。例えば、パスワードをリセットするための質問に自動で答える機械学習のモデルを作るのは特に難しくありません。

こうした自動化は、つまり追加の人員を必要としない、もしくは既存の人員を削減できるので、コストの削減につながります。チャットボットはパスワードのリセットに関する質問に対して、そのやり方が書いてあるページへのリンクを自動的に送ることができます。これによって、カスタマーサポートの人間はもっと複雑な質問に時間を割くことができます。

その反対に、収益を増やすための行動というのは予測することが難しく、さらにクリエイティビティを要求します。新しいマーケティング・キャンペーンは新規見込顧客を増やすことができますが、そうしたキャンペーンを自動的に作り出すようなAIというのはまだ現れていません。

ただ、いずれGAI(General AI、汎用的なAI)とも言うべきものが、優れたマーケティング・キャンペーン、優れた営業のピッチを作り出す日が来るのかもしれません。そうやって作り出されるクリエイティブなアイデアとAIのテストの自動化システムを組み合わせることで収益の改善につながることもあるのかもしれません。

しかしながら、現在のところ最もよく見られるSaaSのプロダクトにおける機械学習のユースケースというのは効率化に関するもので、コスト削減という側面が大きいです。ということで、もし機械学習を使った新しいSaaSの会社や事業を始めたいのであれば、ものすごくコストの高い既存のワークフローを見つけてきて、それをどう自動化させるかということを考えればいいでしょう。


以上が抜粋です。

私達のトレーニングでもよく言っていることですが、AI、機械学習の使い方として二つのパターンがあります。一つはデータ分析に使うもので、もう一つはその予測の機能を製品、サービスの一部として提供するというものです。今回のTomの洞察は、後者に関する部分で、現在の多くのSaaSスタートアップによるユースケースが結局はAIによる自動化であり、それゆえにコスト削減という価値の提供で終わってしまっているということです。

これとは逆に、AI、機械学習をデータ分析の一環で使う場合には、ビジネスの改善に役立つインサイトを抽出し、ドメイン知識を使ってこのインサイトを検証、さらにそうしたインサイトをもとに意志決定を行うことで、コスト削減だけでなく、収益の改善、さらには新しいビジネス機会の創造につながります。そして、このプロセスの中心には、そうしたデータ分析を行い、意志決定を行う人間がいるわけです。つまり、人間のクリエイティビティーとAIのスマートさがパートナーシップを結ぶことで、ビジネスの向上につながるということです。これこそがデータサインエンスのそもそもの存在意義だと思います。

ユーザーがSlackを嫌いにならないためにAIを使うSlack

Slack Hopes Its AI Will Keep You from Hating Slack - Link

先日日本を一週間ほど訪れていましたが、Slackの広告を様々な場所で見かけることが多かったです。最近は日本でもSlackを導入されている企業が多いようです。そのSlackがAIをどうやって製品の中で使っているかに関する記事がありました。

Slackを使っている人はわかると思いますが、とにかくたくさんのメッセージが飛び交います。1ユーザーあたり平均で1日70のメッセージを送るということですが、ちょっと目を離しているすきに大量のメッセージが幾つものチャネルに溜まってしまっていて、どこから目を通したものか、さらには全てのメッセージに目を通す必要があるのかととまどってしまいます。Slackのデータサイエンスチームはこうした問題の解決に多くの時間を費やしているようです。例えば、どのメッセージがそれぞれのユーザーにとって目を通すに値する重要なものであるかを見極め、レコメンドする機能や、検索した時に、チームの中でそれに関連するトピックに関して最も多く発言している人をレコメンドする機能などの開発です。

こうした機能の基盤になるのが、Slackでは、ワーク・グラフと呼んでいる複数の人達が交互にもつ関係を表したデータの体系です。GoogleではKnowledgeグラフ、Facebookではソーシャル・グラフと呼ばれているものと基本的に同じです。

こちらの、ワーク・グラフは、機械学習の世界では協調フィルタリングと呼ばれる、全ての人と製品の好みの組み合わせをもとに、それぞれの人の好みを予測するアルゴリズムを使って構築しているようです。こちらの協調フィルタリングに関しては、以前StichFixがどのようにAIを使って服のレコメンデーションを行っているかや、Spotifyがどう音楽のレコメンデーションを行っているかを紹介したときにも出てきたので興味のある方はそちらも見てみて下さい。

ところで、この記事の中でも書かれていましたが、AIは人と情報を的確にマッチングさせるのに効果がありますが、完璧ではありません。例えば、アルゴリズムに頼って最も重要な情報を得ていた場合、一週間後に重要なメッセージを見ていなかったことに気づいた瞬間にSlackに対する信用を失くすでしょう。これは、いわゆる予測モデルを作る時に気にしなくてはいけないタイプ2エラーというものです。実は重要だと言うべきメッセージを重要でないと言ってたわけですから、それによるダメージは大きくなることがあります。

データサイエンス、機械学習、AIの違いとは何か?

What’s the difference between data science, machine learning, and artificial intelligence? - Link

現在、データサイエンス、機械学習、AIといろいろな言葉が飛び交っているのでそれぞれがどう違うか、どういう位置づけなのかというのは私達のブートキャンプ・トレーニングでもよく受ける質問です。最近ではそれを機械学習101というクラスの中で簡単に説明していますが、最近、Stack Overflowのデータサイエンティストでデータサイエンス業界では有名なDavid Robinsonがこの違いをプロジェクトの観点からまとめていたので、こちらに紹介したいと思います。

以下、抜粋


まずデータサイエンスのプロジェクトは、その目的がデータからインサイトを得て理解するという最も人間的なものであるという点で、MLとAIプロジェクトとの違いがはっきりします。データサイエンスではいつも人間がそのプロセスの中に介在します。(human in the loop) 誰かがインサイトを理解し、数字やチャートを見て、結論を導くことに価値があります。

データサイエンスのプロジェクトでは統計的推論、データの可視化、実験的デザイン、ドメイン知識、コミュニケーションの5つの点が強調されます。

データサイエンスはシンプルなツールを使うことがよくあります。例えば、BIのようにSQLで書くクエリーをもとに得られたデータを集計しチャートを描くだけのこともあります。また別のケースでは複雑な手法を用いることもあります。例えば、分散システムから大量のデータを抽出し、最先端の統計、機械学習の手法を用いてデータを分析し、インタラクティブにデータを可視化したりします。ただどのような手法を使うにしても、そのゴールはいつもデータをより良く理解することです。

データサイエンスと機械学習のプロジェクトには多くの重なる領域があります。例えば、ロジスティック回帰はデータの中にある関係をインサイトとして抽出することができます。ユーザーが裕福であればあるほど私達の製品をもっと買っているというインサイトからマーケティング戦略を変えるというアクションを導くことができます。これはデータサイエンスのプロジェクトにおける典型的な機械学習のアルゴリズムの使われ方です。逆に機械学習のプロジェクトでは、同じロジスティック回帰のアルゴリズムを予測に使います。例えば、あるユーザーは製品Aを買う可能性が53%なので、この製品をレコメンドしようと言った具合です。

ランダムフォレストのようなモデルは中で何が起きているのか説明しにくいので、インサイトを得ることに重きを置くデータサイエンスのプロジェクトよりも、予測の精度に重きを置く機械学習のプロジェクトに適しています。ディープラーニングはさらに中で何が起きているのかを説明できないことで有名ですが、このことは、予測ではなくインサイトを得ることが重要である場合に特に問題になります。つまり”なぜ”そうした予測が導き出されるのかを説明できないからです。

データサイエンスと機械学習のスペクトラム(軸)があったとすると、一方の端にはデータサイエンス・プロジェクト向けの、中身が理解しやすい機械学習のモデルがあり、もう一つの端には機械学習のプロジェクト向けの、中で何が起きているのか分からないブラックボックスな機械学習のモデルがあると言った具合です。

ただ、データサイエンスを毎日仕事として行っている人のほとんどは、実際にはこの二つのタスクを行ったり来たりするものです。私自身も、Stack Overflowのトラフィックデータをもとにモデルを作りどのユーザーが仕事を探しているのかを予測し(機械学習)、集計や可視化の手法を使ってそのモデルの言っていることを検証(データサイエンス)します。


以上が抜粋です。

現在データサイエンティストの間でもこうした違いに関する解釈はバラバラです。特にこれは、統計のバックグラウンドがあるかないかで特に違いがあると思います。ここに紹介するDavidはもともと統計をしっかりと勉強してきたデータ分析に重きを置くTypeAと呼ばれるデータサイエンティストです。

ここに紹介した考察は、データサイエンス、AI、機械学習の違いを技術的に説明するのではなく、それぞれの目的、ゴールを明確にすることで説明しているという点で優れていると思います。ほとんどのデータサイエンスのプロジェクトで機械学習のアルゴリズムを使わないということはないと思いますが、機械学習のプロジェクトで使われるときと、データサイエンスのプロジェクトで使われるときの目的、使い方の違いを明確にすることで、機械学習のアルゴリズムの有用性をうまく説明していると思います。

興味深いデータ

気候変動の食糧供給への影響データ

Climate Change Impact on World Food Supply - Link

気候変動が食糧の収穫に与える影響についてのデータがNASAによって公開されています。国や地域ごとに米、小麦、家畜などの将来の収穫量がまとめられています。

スタジオ・ジブリの映画データ

“もののけ姫”や“千と千尋の神隠し”などで有名なスタジオ・ジブリは世界中に熱狂的なファンが多いですが、その映画に関するデータがこちらよりAPIとして公開されています。キャラクター、場所、乗り物などに関するデータです。あくまでも公式ではなく、あるファンの人たちが勝手に作ったようです。こちらのAPIのソースコードがあるこちらのGithubにあるレポジトリからはその全てのデータをJSONとしてまとめてダウンロードできます。Exploratory Desktopをお持ちの方はそのままJSONデータとしてインポートできますので、興味のある方は是非試してみて下さい。

What Are We Working On?

Exploratoryの次期バージョンv4.3の開発が始まりました。リリースは3月の上旬を予定しています。来週より少しずつ新機能を紹介していきたいと思います。さらにそれと並行して、次回のブートキャンプ・トレーニングの内容の再構成、使われるコンテンツの刷新の作業も始まっています。どちらもテーマは”統計”となります。お楽しみに!

データサイエンス・ブートキャンプ・トレーニング

冒頭にも申し上げた通り、この3月の終わりに次回のデータサイエンス・ブートキャンプを行います。ぜひ周りにデータサイエンスに興味のある方がいらっしゃればお声をかけていただければと思います。詳しくはこちらのブートキャンプ・ホームページをご覧ください。


それでは、今週は以上です。素晴らしい一週間を!

西田, Exploratory/CEO
KanAugust(Twitter)


こちらのExploratory’s Weekly UpdateはExploratoryのユーザー以外の方も無料で購読できます。まだEmailを登録されていない方はこちら(https://exploratory.io/tag/weekly%20update%20-%20japanese) よりどうぞ!皆さんのお役に立つと思うデータサイエンス関連のニュースをまとめたものを週一度配信いたします。