こんにちは、Exploratoryの西田です。

こちらは先週ちょっとあったかいなと思っていたら、先週末から急に寒くなってきて、まるで秋になってしまったかのようです。

ところで、この6月に東京で開催するデータサイエンス・ブートキャンプ・トレーニングですが、おかげさまで週末版の方はすでに定員に達してしまったため応募の方は締切となりました。平日版はまだ若干ですが空きがありますので、参加を検討されている方はお早めにお申し込み下さい。詳細は下記よりご参照ください。

ブートキャンプに参加!

それでは、今週のWeekl Updateですが、まずは、Airbnbがどのようにデータサイエンスを使って広告の最適化を行っているのか、Facebookが彼らのAIシステムの最適化のためにどのようにユーザーにただ働きさせているのか、Netflixで成功するためのキャリアには統計の理解が必要であるという事に関しての記事を紹介したいと思います。

それでは、行ってみましょう!

最近の興味深い英文の記事

Airbnbがどうのようにデータサイエンス使ってマーケティング最適化しているのか

私達の日本でのトレーニングにも多くのマーケティングに関連した仕事をされている方が来られますが、よくある質問にどのようにデータを使って広告の最適化を行えばよいかというものがあります。いろいろなところに広告を打っているが、そのROI(Return On Investment)を測り、その結果を次のキャンペーンの予算に反映させたいというものや、さらには広告そのものをより効果的なものにしたいというものです。

ちょうどそんな時に、日本でも民泊サービスを提供する会社として有名になってきている、シリコンバレーのAirbnbのデータサイエンスチームから、彼らがまさにこうした質問に答えるためにどうやってマーケティングのシステムを構築しているのかについて、こちらのポストで先週共有していたのでこちらで紹介したいと思います。

ただ、シリコンバレーの会社らしく、広告と言ってもオンラインのGoogleやFacebookなどの広告に絞った話となっています。

以下、要約


Growing Our Host Community with Online Marketing - link

このポストでは、以下の質問に答えるために作ったAirbnbのマーケティングシステムの概要と、それを作るあたってのいくつかのチャレンジについて話します。

  • どの広告を買うべきか
  • その広告にいくら払うべきか
  • それぞれの広告の成果をどう計測するべきか

私達のマーケティング・システムの最終的なゴールは、キーとなるビジネスの目標とゴールをかなえるために、自動的に広告を作り、入札をし、予算を分配することができるというものです。さらにこのシステムは広告の成果をレポートし、広告のA/Bテストのような実験をサポートすることを期待されています。

私達のマーケティング・システムの話をする前に、まずはわれわれの打つ広告のライフサイクルを最初に見てみましょう。

(続きはこちらのリンクよりどうぞ。)

あなたがInstagramに投稿する写真とハッシュタグはFacebookのAIのトレーニングに使われている

Instagramほど画像認識のためのAIシステムを作るのに秀でている仕組みはありませんが、その規模について、こちらの記事に書いてあったので一部を抜粋します。


Your Instagram #Dogs and #Cats are training Facebook’s AI - Link

“InstagramはFacebookにとって、Google、Amazonなど、AIの大きな野望を持っている他のテック大企業と競争していくための武器です。”

" FacebookはInstagramのユーザーによって公開されている何千億という写真を使ってAIアルゴリズムをトレーニングし、それぞれの写真のカテゴリーを自動的に判別させています。こうした写真は17,000ものハッシュタグがInstagramのユーザによって割り当てられていますが、これがAIのアルゴリズムが写真をカテゴリー分けするのに役立っています。Instagramで公開されている写真の数は3500億と言われていますが、それはGoogleの持つ数の10倍です。"

" Facebookが言うには1000億のInstagramの写真を使ってトレーニングしたAIのモデルは、イメージの識別テストでよく使われるImageNetのテストであれば、85.4%の正解率をはじき出すようです。これは現在最高のスコアで、その前にトップだったのはグーグルが今年の最初にはじき出した83.1%というものでした。"


画像認識のようなAIはまずデータ量がモノを言います。GoogleやFacebookは一般の人たちからただでそうした写真を集めています。私達がただで使えると思っているサービスですが、実は私達こそが価値を提供しているということです。そしてそうしたデータを大量に集めると次に重要になるのが、ラベル付けという作業です。多くのテック企業はこの作業を安い労働力を外から雇ってこういう作業をやっていたものですが、これをFacebookとInstagramは、ユーザーにハッシュタグというかたちで、ただでやらせているわけです。考えてみると、すごい仕組みですね。

しかし、この画像認識のAIにより、Facebookはより高度に私達を理解することが出来ます。あなたがどこにいたのか、誰と一緒にいたのか、何が好きなのか、どこへ行くのが好きなのか、どういう人間関係を持っているのかなど、今まではそれぞれのユーザーがわざわざ言葉にして書かない限りつかめなかった情報が手に入るようになってくるわけです。これは今までの個人情報、例えば名前だとか、生まれた場所、年齢、電話番号どころの情報ではないです。私達が自分を自分以上にかっこよく見せようというごまかしが効かなくなります。百聞は一見にしかずというように、写真からは私達が言葉にする以上に私達のより本当の姿がわかるわけです。

なく、そしてこのことがFacebookが私達のより多くの個人情報を理解するのを助けることになるというのは気づいているかもしれません。そのことについての記事がWiredマガジンに書かれていたので一部を抜粋して紹介します。

このことが深刻な問題だと思うのは、国家の安全保障にも関わってくるからです。。

こうしたことを、こういった規模で出来る会社が現在はシリコンバレーにしかないというのは懸念すべきです。なぜなら、こうした情報は国家の安全保障にも関わってくるからです。最近では、Googleが国防省とAIの分野で幅広く協力するパートナーシップを結んでいることに抗議して、何十人ものGoogleの技術者が辞めるという事態になっています。(リンク) ちなみに、中国はもともとプライバシーとか人権といったものがないので、こうしたことをどうどうと国家が率先してやっています。(リンク) 😱

四半期ごとに行う製品戦略会議のやり方

以前こちらのWeekly Updateでも”Netflixがカスタマーを誰よりも理解するためのデータ分析プロセス、コンシューマー・サイエンスの紹介”という記事の中で紹介した、Netflixで元プロダクトのトップだった、Gibson Biddleという人がこちらの記事の中で、どう製品戦略会議(Product Strategy Meeting)を行うべきかというのを彼が昔Netflixにいた時の経験をもとに書いてくれています。基本的には、データサイエンスというよりも、プロダクト開発に関しての話なのですが、その中で、統計に強い人がプロダクトチームのトップに多いと言っている部分があっておもしろいなと思いました。

一部、抜粋


こうして会議をやっていくと、以下のような間接的な成果に気づくことになります。

結果を重視する組織が作られていきます。あなたの担当するプロダクトのエリアが結果を出し、指標を意味のあるかたちで改善することが出来ると、多くのリソース(人、予算、システムなど)を獲得することができます。逆に結果が出ず、指標が改善しないと、リソースは減るということになります。

会議を行っていくうちにどのプロダクト・リーダーが仕事ができ、どのリーダーのスキルが会社が成長するのについていけるのかがわかってきます。Netflixの場合は、プロダクト・リーダーは最初のうちはスターター(始める人)としての人材でもいいのですが、会社が大きくなってくるに連れ、Netflixをより大きな規模なビジネスにさせるために、ビルダー(建てる人)としてもっと効果的な人材が必要となりました。そして、時間がたつに連れ、いくつかのエリアではドメインの専門性(業務知識)がよりいっそう求められます。今日ではある程度の人数のプロダクトリーダーは統計学の修士を持っています。これはNetflixがスタートアップだったころにはほんの数人が統計学のコースを取ったことがあるくらいだったことと比べると大きな違いです。


抜粋、終わり

Netflixでは前述の記事でも紹介したように、A/Bテストをかなりの規模で毎日行っています。これはNetflixが特別なのではなく、特にシリコンバレーのテック企業では当たり前のプロダクトやサービスの開発手法となっています。そしてこのテストの設計と検証に、何も修士課程が必要だとは思いませんが、統計の基本的な理解が必要となります。

こちらUSでは、データに強い人間でないとマネージャーや重役にはなれないという記事をたまに目にしますが、こうやってNetflixのような具体的な話を聞くと、いよいよこういう会社がこれからも増えていくのだろうなと感じます。というのも、例えばテレビ、映画などのメディア企業はこういうNetflixのような人たちと戦っているという現実から逃げることができないからです。

Quote of the Week

Once you’ve internalized the concept that you can’t prove anything in absolute terms, life becomes all the more about odds, chances, and trade-offs.

どんなことも絶対的には証明できないのだということに気づくと、私達の生活は全てオッズ、チャンス、そしてトレードオフなのだということを受け入れることが出来るようになる。

Robert E. Rubin, Former United States Secretary of the Treasury during the Clinton administration.

What Are We Writing?

Team Exploratoryのヒデが、SpotifyのデータをPCA、距離、クラスタリングのアルゴリズムを使って簡単な分析をしていて、なかなかおもしろいので、ぜひチェックしてみて下さい。

さらにTeam Exploratoryのケイより、簡単で役立つHow-Toのブログポストが投稿されています。

What Are We Working On?

ようやく、R 3.5へのアップグレードのプロジェクトが一段落しました。予想していた通り、いくつかのRパッケージが動かなかったり、そもそもCRAN(Rパッケージのレポジトリ)からなくなっていたりと、いろいろとわがままなアップグレードでしたが、何とか今までどおりの機能がそのまま動くのが確認できました。

そして、なんといってもボーナスは、R3.5で入ってきたALTREPというパフォーマンスの改善です。特にアナリティクス・ビューの下で、その違いが感じられます。

ちなみに、次期リリースでは、Google BigQueryのRパッケージもアップグレードします。この新しいバージョンではパフォーマンスが大きく改善されるはずなので楽しみにしておいて下さい。

データサイエンス・ブートキャンプ・トレーニング

次回の6月のブートキャンプですが、週末版はもうすでに埋まってしまいました。平日版のお席の方にはまだ少し空きがありますので、データサイエンスを始めたい、データ分析を本格的に学んでみたいという方はこの機会にぜひ参加をご検討下さい。

ブートキャンプに参加!


それでは、今週は以上です。素晴らしい一週間を!

西田, Exploratory/CEO
KanAugust(Twitter)


こちらのExploratory’s Weekly UpdateはExploratoryのユーザー以外の方も無料で購読できます。まだEmailを登録されていない方はこちら よりどうぞ!皆さんのお役に立つと思うデータサイエンス関連のニュースをまとめたものを週一度配信いたします。