Photo by Jakub Gorajek on Unsplash

「AIはテック企業をもっと強くする」はほんとうか

AIによってシリコンバレー（もしくはベイエリア）への一極集中はさらに加速するのでしょうか。

現在、AI分野で進んでいる企業と言えば、Google、Apple、Facebook、Teslaなどといったシリコンバレーの企業か、中国のいくつかの企業を思い浮かべる人も多いのではないでしょうか。

そういった企業はデータ・ネットワーク効果を利用して、現在もどんどんとデータを集め続け、それによって彼らのアルゴリズムの精度をどんどん上げていくことにより、さらにユーザーの数が増え、それによってさらにデータがもっと集まるという、競争上の好循環を作り出しています。

このデータ・ネットワーク効果によって、シリコンバレーに代表されるすでにAIの強いテック企業はさらに強くなるので、これからさらなるビジネスの一極集中が世界的な規模で進むのではないかと言われています。

しかし、将来はそんなに単純なのでしょうか。

この疑問に答えるために、A16Zというベンチャー・キャピタルの気鋭のアナリストであるBenedict Evansからの参考になる考察が出てましたので、こちらで紹介します。

以下、要訳。

Does AI make strong tech companies stronger? - Link

機械学習はその能力が様々な形で応用されていっています。ですので、一極集中が起こるのと同時に、分散もおこるのではないでしょうか。

機械学習を使って新しく重要なことができるようになります。そして機械学習はより多くのデータを持っていたほうがより品質が上がります。それでは、すでに大きな会社でたくさんのデータを持っているような企業はどれほど強くなるというのでしょう。

勝ち組による独占というのはどのくらい進むのでしょうか。

データ・ネットワーク効果による好循環が勝者をより強くするというのは、おなじみのことです。より多くのデータはより精度の高いモデルとなり、それはよりよいプロダクトを意味し、より多くのユーザーにつながり、より多くのデータを生み出します。

これをもって、「Google、Facebook、Amazonは全てのデータを持っている」または「中国は全てのデータを持っている」といわれ、最強のテック企業がより強くなる、大きな人口を抱える国はよりデータの中央による独占化がすすむという恐怖感を人々の間に抱かせます。

機械学習は大量のデータを必要としますが、このデータはあなたが解決しようとする問題に特化したデータである必要があります。GEはガスタービンから送られてくるデータを大量に持っています。Googleは大量の検索に関するデータを持っています。Amexはクレジットカードと不正取引に関するデータを大量に持っています。

ここで、ガスタービンのデータを使って、クレジットカードの不正取引を検出することはできません。また、ウェブの検索データを使って、どのガスタービンが故障するかというのを予測することはありません。

機械学習自体は、一般的なテクノロジーであり、不正取引の検出にも使えるし顔認識にも使えます。ところが機械学習を使って作るアプリケーションは一般的なものではありません。

機械学習を使うアプリケーションは一つのことだけをします。これはこれまでの自動化の歴史で私達が見てきたものといっしょのことです。洗濯機は服を洗うだけで、皿を洗ったり料理をしたりはしません。チェスができるマシンはあなたの税金の処理を行うことはできません。翻訳を行うことができる機械学習のシステムは、猫を認識することができないのです。

つまり、あなたが作るアプリケーションに必要なデータとは、あなたが解決しようとするタスクに特有なものなのです。（もちろん、学習の部分を違うデータを使って移転するような研究は日々進んでいますが。）

このことは、機械学習の実装は大きく分散されていくことを意味します。Googleが全てのデータを持つということはありません。Googleが持つのはGoogleのデータだけで、そのことによりGoogleはよりクオリティの高い検索の結果を出すことができるのです。

GEはさらにもっとエンジンに関するデータを集めるでしょう。Vodafoneは電話のパターンやネットワークの計画に関するデータを集めるでしょう。

GoogleはGoogleであることに関しては、どんどん良くなっていくでしょう。しかしそれはGoogleが他のことに関しも、良くなっていくということは意味しません。

それでは、それそれの産業界にあるすでに大きな企業がどんどん大きくなっていくということなのでしょうか。Vodafone、GE、Amexはすでにそれぞれ自分たちの領域に関するデータを大量に持っていますが、このことが競争優位になるのでしょうか。

これは、実はもっと複雑です。いくつかの質問の答えを考えてみてください。

そもそも誰がそのデータを所有しているのか。そのデータはどれくらいユニークなのか。ユニークだとして、どのレベルでユニークなのでしょう。どこでデータは集計され、さらに分析されているのでしょうか。

これらの答えは、それぞれの場合によって異なります。

データ・ネットワーク効果が機能する場合

いくつかのデータはそのビジネスやプロダクトにとってユニークで、大きな競争優位を与えてくれます。GEのエンジンに関するデータはロールス・ロイスのエンジンを分析するのには役立ちません。もし役立つとしたら彼らはそもそも共有しないでしょう。このことは新しい会社を作る機会なのかもしれません。

いくつかのデータは、多くの企業や産業を超えて使えるような、ある特定のユースケースに役立つでしょう。

「この電話はどこか不審である」というのがわかるAIはどのクレジットカード会社にとっても使えるものでしょう。

「お客様が怒っているようだ。」というのがわかるAIはコールセンターを抱える企業にとってはどこでも使えるものとなります。

多くの企業または産業を超えた問題を解決するめにたくさんの会社が作られています。ここには確かにデータ・ネットワーク効果が機能します。

データ・ネットワーク効果が途中で止まる場合

しかしそれでも、ある一定の量のデータが集まれば、ベンダーはそれ以上に一人づつの顧客に関するデータを集め続ける必要はそれほどでもなくなるかもしれません。というのも、プロダクトに使われているAIはすでに十分機能しているからです。

私達が投資しているスタートアップの一つにEverlawという訴訟の文書検索サービスを提供している会社がありますが、機械学習を使って何百万という文書からセンチメントをもとにした検索をすることができます。しかし、これができるのはすでに学習したAIのモデルを使っているからで、一つ一つの訴訟に関する文書をもとにモデルを学習し直す必要はありません。

私達が投資している別の会社でDrishtiというところは、コンピューター・ヴィジョンを使って生産ラインを分析しているですが、一部のAI機能は顧客特有のデータを使って学習するのですが、他のAI機能はそれぞれの顧客に特化したデータを必要とせず、逆にどの産業でも使えるものなのです。

簡単に集めることのできるデータは競争優位にならない

最近、タイヤがパンクするのをより正確に予測するために機械学習を使っている大型車のメーカーの人と話す機会がありました。ここでの機械学習はパンクしたタイヤとそうでないタイヤに関するたくさんのデータをもとに学習するわけですが、そうしたデータを集めるのは特に大変なことではありません。これは誰でもできる一つの機能であって、競争優位になることはありません。

SQLとしてのAI・機械学習

私達が機械学習を考える時、それはSQL（データベースのデータを検索するための言語であるが、ここではデータベース全般のことを示している。）に例えるとわかりやすいと思います。

それらは新しく重要なものを作るための重要なブロックで、全てのものの一部となるものです。

もちろん、あなたは使わなくてもいいのですが、あなたの競争相手は使うので、あなたはどんどん遅れを取っていくことになります。それを使っていくことで、まったく新しいタイプの会社が作られることもあります。Wal-Mart（ウォルマート）の成功は、在庫と流通をデータベースを使ってより効率的に管理したからです。

しかし、今日、あなたが小売の店を始めるとして、「私達はデータベースを使います。」といってもそれは競争優位になることもなければ、何もおもしろくありません。SQLは当たり前のように全てのものに組み込まれるようになったので、ある意味その存在価値が消えてしまったのです。

そして、これと同じことが機械学習でも起きていくのではないでしょうか。

以上、要訳終わり。

たしかに、データ・ネットワーク効果が効く分野もあるのですが、同時に、単にどんなデータでも集めればよい、というわけではなく、データの量が多いから競争優位になるという単純なものでもないということですね。

しかし、今でもデータをどんどんと集めることに励んでいる会社を日本でよく見かけます。データを集めることが先に来てしまうと、ついつい集めやすいデータから集め始めてしまうことになり、結局は自分たちのビジネスには特に役に立たない、またはビジネスの競争優位に役立たないいうことになり、お金と労力が無駄になってしまうことが多々あります。

データがあったとして、そのデータを使って具体的に何ができるのかというのは、最初に考えておくべきことで、データを取った後に考えるようなことではありません。

まずは、ビジネスの目的が何のか、どういった問題を解決したいのかをはっきりさせ、そこで機械学習なりデータがどう役立つのかを考慮し（そもそも役に立つのかも含めて）、その上で必要なデータを誰がどこでどうやって集めてくるべきなのかを戦略的に考えてから進めていくべきだと思います。

そのためには、データを集める前に、データが集まったと仮定して、一度そういった機械学習を使ったプロダクトなりサービスのプロトタイプを作り、シミュレーションまでしてみるといいと思います。その上で、可能性が見えるのであれば次のステップとして実際にデータを集めたほうが、はるかに効率的です。

いつか何かの役に立つのではという甘い期待のもとに、貯めているデータは、大抵の場合そういった日の目を見ることはありません。それは毎年宝くじを買っていればいつか当たるだろうと期待して待ち続けるようなものです。

そしてこの点が、データは「お金」や「石油」と決定的に違う点だと思います。

データサイエンス・ブートキャンプ、3月開催！

この3月の中旬に、Exploratory社がシリコンバレーで行っているトレーニングプログラムを日本向けにした、データサイエンス・ブートキャンプを東京で開催します。

データサイエンスの手法を基礎から体系的に、プログラミングなしで学んでみたい方、そういった手法を日々のビジネスに活かしてみたい方はぜひこの機会に参加を検討してみてください。詳しい情報はこちらのホームページにあります！