こんにちは!

Exploratoryの西田です。

こちらサンフランシスコでは9月の中旬から下旬にかけてやってくるインディアンサマーという暖かい気候が続いています。ただ次のバージョンのリリースに向けて忙しく、エンジョイしてるヒマがないのが残念ですが。。。

それでは今週もアップデートの方をお届けします。

最近の興味深い英文の記事

もうすでにピークを過ぎたAIのハイプ。次は何?

AI hype has peaked so what’s next? - 9/30 - URL

この記事は私達がよく話していることと基本的に同じですが、きれいに論点が整理されてていいと思います。ポイントは、これからAIをベースにした製品・サービスを作るスタートアップは以下のことを理解して、moat(参入障壁)をしっかり作らなければいけないということです。

  • AI・機械学習のアルゴリズムはコモディティ化してるのでそれ自体がmoatとなることはない。
  • 逆に、自分たちにしか集めることのできないデータというのがいちばん重要なmoatとなりうる。
  • 次に、そのデータを理解することのできるドメイン知識、ビジネス知識が重要。
  • そして、AIベースの製品・サービスはユーザーのワークフローにしっかりはまっているか、そして10倍以上のリターンをもたらすかどうかが重要。

特に最初の3点に関しては多くの日本企業にとっての追い風となるのではないでしょうか。

そして、このAIそのものをmoatとしようとして失敗してるのがIBMだと思います。最近IBMのWatsonに対する批判記事をよく目にする機会が多いです。もちろん、ここシリコンバレーのデータサイエンス、AIの世界では、Watson使ってる人もいないし、話に上ることもないですが、日本に行くとまだチラホラと話を聞きますので、この機会に、なぜこっちではあまり本気で捉えられていないかということを紹介しておきたいと思います。

IBMはワトソン・スーパーコンピュータをガンの治療における革命だとして売ったが、現実はまったく違う

IBM pitched its Watson supercomputer as a revolution in cancer care. It’s nowhere close - 9/5 - URL

この記事は世界最高のガン治療のソリューションとしてたくさんの病院に売られてしまったWatson for Oncology (腫瘍、がん)に関してですが、Watsonに聞けば今まで知らなかったような治療法を教えてくれるかのような期待に対し、現実は医者が治療法のレコメンデーションそのものを様々な患者のタイプごとに絶えず入力し、学会などで新しい研究成果、発見などがあると、それをもとに更新するという泥臭い作業が毎日発生します。ですので、結局は医者がわかっていることを再確認するくらいにしか使われていないということが具体的な例を挙げて書かれています。機械学習などすでにやってる方であれば、ニヤッとするところですが、残念ながらIBMのマーケティングマシンに煽られた一般の期待はふくらむばっかりです。

なぜみんなIBM Watsonを嫌っているのか、それを実際に作った人たちでさえも

Why Everyone Is Hating on IBM Watson—Including the People Who Helped Make It - 8/10 - URL

“IBM ワトソンはAI産業のドナルド・トランプだ。信頼されるデータに裏付けされていない、おおげさで誇張された主張という点で。みんな ワトソンは裸の王様だということを知っているが、誰も言いたがらない。” Oren Etzioni, CEO of the Allen Institute for AI and former computer science professor.

“ワトソンに関するコマーシャルを見るとあたかもガンを治癒することができる新しい方法をワトソンが見つけ出すかのような印象を受ける。しかしなぜそうやって人々を混乱させるのか、なぜ、医者が発見できることのないようなことをワトソンが発見できると思わせるのか。これは道徳的な問題だ。そうした希望をこういったシステムにもってはいけない、なぜならこれは魔法の箱ではないし、神でもないからだ。” - a former employee who worked as a design researcher lead at Watson for Oncology

まとめ

これは私達データサイエンス・AIに関わるものすべてに対する戒めのメッセージであるとも思います。実際にデータサイエンス・AIはデータを分析するにあたって大変役立ちます。しかし普段データ分析をしない人たちにとってはいまいちよくわからないけど、なにかすごいことができそうな魔法のように感じるわけです。そこで、しっかりと期待を地に足の着いたものにするためのコミュニケーションが必要とされるわけです。私達もそこに気をつけて情報を発信し続けたいと思います。

興味深いデータ

日本の貿易データ (Kaggle) - URL

Kaggleという機械学習のコンテストのプラットフォームで公開されています。ただ、一部SQLiteという軽量のデータベースのフォーマットになっているのでそちらの方を取り出して、加工したものをこちらにホストしてます。どうやって取り出し、加工するかはこちら(英語)の方に詳しく書いてあります。

USの犯罪データ(FBI) - URL

USのFBIが集めている犯罪に関するデータが公開されています。州、犯罪タイプ、年ごとのサマリーデータです。どういった犯罪がどこで増えてるか減ってるかなどのトレンドを分析できます。先週と同じく、これもGather(WideをLongに / 列を行に)してしまったほうが分析しやすいかもしれません。こちらに私がラングリングして可視化したものを共有していますので、興味のある方はEDFをダウンロードしてインポートしてみてください。

ブログポスト from Team Exploratory

こちらに、私達が書いたブログポストがありますので、よろしければ参考までに見てみてください。

  • アメリカにおける日系人の強制収容 by Kan - URL
  • 高速インターネットの普及率でアメリカの田舎を定義する(英語)by Kan - URL

What We Are Working On?

引き続き、次期リリースに向けての開発に集中しています。いよいよ今週が開発の最後の週になりますので、ラストスパートです。プレゼンテーション・スライドを作る機能がほぼ出来上がりました! Stay tuned!

ブートキャンプ・トレーニング

最後になりますが、今月の終わりにこのシリーズ最後の日本でのデータサイエンス・ブートキャンプ・トレーニングを開催します。もし周りに興味のある方などいらっしゃいましたら、ぜひお声をかけていただければと思います。よろしくお願いします!

それでは、素晴らしい一週間を!

西田, Exploratory/CEO