こんにちは!
Exploratoryの西田です。
今週から週に一回ほど、私達が最近目にした面白い情報をみなさんと共有していきたいと思っています。主に、データサイエンス関連のニュース、新しいデータセット、私達が最近書いたブログ記事、Exploratoryのアップデート等が中心になります。何かフィードバック等あればぜひお知らせいただければと思います。
それではいってみましょう。
HOW YOUTUBE PERFECTED THE FEED - Google Brain gave YouTube new life - 8/30 - Link
ユーチューブはGoogle Brainという教師なし学習のアルゴリズムを2015年からレコメンデーションに使い始めていますが、どのようにそのクオリティーを上げていっているかという話です。レコメンデーションの結果はモバイルだと短め、大きめスクリーンからだと長めのクリップを薦めるというようにユーザーのデバイスタイプで変えてるようです。ま、当たり前といえば当たり前ですが。Google Brainを使うようになって、最新のトレンドをレコメンデーションに取り組むのに、以前は数日かかってたものが今は何時間、もしくは数分という単位のようです。こうしたこともあって、現在70%以上のユーチューブで見られているビデオは、この新しいアルゴリズムを使ったレコメンデーションによるものだそうです。
あと、これも最近はどこもしていることですがユーチューブもクリックではなく、実際にビデオを見た時間をもとにユーザーが気に入ったビデオなのかどうか決めているようです。
ENGINEERING UBER’S SELF-DRIVING CAR VISUALIZATION PLATFORM FOR THE WEB - 8/28 - Link
UberはWebのテクノロジーを使って自動運転のシミューレーションをブラウザー内で可視化できるようにしているようです。WebGLを使ってPCのGPUにアクセスして60から100のレイヤー、毎秒30-50フレームのスピードを実現しているようです。すばらしいですね。ちなみに使っているライブラリーは react-map-gl と deck.glなどのようです。
さらになにげに苦労しているのが、色々なサービスで使っている地理データ(緯度、経度など)が統一されていないので、それらのデータを変換する必要がありますが、そこにGPUを使っているみたいです。
Predicting Portland Home Prices - 9/10 - Link
アメリカのオレゴン州にあるポートランドという町の不動産の値段を不動産会社による記述データ、Zillowというオンライン不動産リストサービスでのそれぞれの不動産に関するメタデータ、グーグルのイメージ検索経由でRedfinというこれまた別のオンライン不動産リストサービスから取ってきたそれぞれの物件の写真を使って、機械学習のXGBoost、自然言語処理、DeepLearning(イメージ)を組み合わせて予測するという実験をしています。結果としては、自然言語処理、DeepLearning(イメージ)は予測モデルのクオリティーを上げるのには役立たず、結局XGBoost(教師あり機械学習のアルゴリズム、Exploratoryでサポートされてます! 関連ブログポスト)のみで作り上げたモデルが一番良かったという落ちでしたが、それでも実際どうやってデータを集めて、トライ・アンド・エラーでモデルを作り上げて行くのかというのがハイレベルですが伺うことができて面白いと思います。具体的な手法に関してはちゃんとGithubに公開されます。
オープン・データといって世界中の政府を含めた公共機関が自分たちの持っているデータをパブリックがアクセスできるようにするというムーブメントがありますが、そうした世界中のデータを探しやすくまとめたサイトがこちらです。
日本にもいくつかありますが、ここに政府系のデータがまとまっているポータルサイトがあります。アメリカ政府のdata.govに全く似ていますがおそらく同じシステムを使っているのでしょうか。それにしても、データと言っておいて、PDFがたくさんあるのは勘弁してほしいものです。😱
最近ここアメリカではハリケーンが猛威を奮っていますし、さらに日本でも台風18号が大変な被害を各地で起こしていると聞いています。皆さんとご家族、お友達の方たちが無事であることを願っています。こちらに過去の(1842年まで遡ることができます。)世界中のハリケーン、台風、サイクロン等に関するデータがあります。ハリケーンの移動軌跡や風力、気圧など分析できます。こちらにうちの斎藤が軽く分析したものがありますので参考までに御覧ください。
こちらに、最近Team Exploratoryのメンバーが書いたブログポストがありますので、よろしければ参考までにチェックしてみてください。
次のリリース、v4.1に向けていくつかの新しい機能を造ってます。そのうちのひとつに、Markdownノートを使ってプレゼンテーションのスライドを作れるようになる機能があります。 お楽しみに!
最後になりますが、10月の下旬に今年度最後の日本でのデータサイエンス・ブートキャンプ・トレーニングを開催することになりました。もし周りに興味のある方などいらっしゃいましたら、ぜひお声をかけていただければと思います。よろしくお願いします!
それでは、素晴らしい一週間を!
西田, Exploratory/CEO