こんにちは!

Exploratoryの西田です。

今週から週に一回ほど、私達が最近目にした面白い情報をみなさんと共有していきたいと思っています。主に、データサイエンス関連のニュース、新しいデータセット、私達が最近書いたブログ記事、Exploratoryのアップデート等が中心になります。何かフィードバック等あればぜひお知らせいただければと思います。

それではいってみましょう。

私達が最近読んで面白かった英文の記事

ユーチューブがどうやってレコメンデーションを完璧にしたのか

HOW YOUTUBE PERFECTED THE FEED - Google Brain gave YouTube new life - 8/30 - Link

ユーチューブはGoogle Brainという教師なし学習のアルゴリズムを2015年からレコメンデーションに使い始めていますが、どのようにそのクオリティーを上げていっているかという話です。レコメンデーションの結果はモバイルだと短め、大きめスクリーンからだと長めのクリップを薦めるというようにユーザーのデバイスタイプで変えてるようです。ま、当たり前といえば当たり前ですが。Google Brainを使うようになって、最新のトレンドをレコメンデーションに取り組むのに、以前は数日かかってたものが今は何時間、もしくは数分という単位のようです。こうしたこともあって、現在70%以上のユーチューブで見られているビデオは、この新しいアルゴリズムを使ったレコメンデーションによるものだそうです。

あと、これも最近はどこもしていることですがユーチューブもクリックではなく、実際にビデオを見た時間をもとにユーザーが気に入ったビデオなのかどうか決めているようです。

ウバーによるウェブベースの自動運転のための可視化システムの構築

ENGINEERING UBER’S SELF-DRIVING CAR VISUALIZATION PLATFORM FOR THE WEB - 8/28 - Link

UberはWebのテクノロジーを使って自動運転のシミューレーションをブラウザー内で可視化できるようにしているようです。WebGLを使ってPCのGPUにアクセスして60から100のレイヤー、毎秒30-50フレームのスピードを実現しているようです。すばらしいですね。ちなみに使っているライブラリーは react-map-gl と deck.glなどのようです。

さらになにげに苦労しているのが、色々なサービスで使っている地理データ(緯度、経度など)が統一されていないので、それらのデータを変換する必要がありますが、そこにGPUを使っているみたいです。

ポートランドの不動産物件価格を予測する

Predicting Portland Home Prices - 9/10 - Link

アメリカのオレゴン州にあるポートランドという町の不動産の値段を不動産会社による記述データ、Zillowというオンライン不動産リストサービスでのそれぞれの不動産に関するメタデータ、グーグルのイメージ検索経由でRedfinというこれまた別のオンライン不動産リストサービスから取ってきたそれぞれの物件の写真を使って、機械学習のXGBoost、自然言語処理、DeepLearning(イメージ)を組み合わせて予測するという実験をしています。結果としては、自然言語処理、DeepLearning(イメージ)は予測モデルのクオリティーを上げるのには役立たず、結局XGBoost(教師あり機械学習のアルゴリズム、Exploratoryでサポートされてます! 関連ブログポスト)のみで作り上げたモデルが一番良かったという落ちでしたが、それでも実際どうやってデータを集めて、トライ・アンド・エラーでモデルを作り上げて行くのかというのがハイレベルですが伺うことができて面白いと思います。具体的な手法に関してはちゃんとGithubに公開されます

最近発見したデータ

LIST OF 2600+ OPEN DATA PORTALS AROUND THE WORLD

オープン・データといって世界中の政府を含めた公共機関が自分たちの持っているデータをパブリックがアクセスできるようにするというムーブメントがありますが、そうした世界中のデータを探しやすくまとめたサイトがこちらです。

日本政府関連のオープンデータ

日本にもいくつかありますが、ここに政府系のデータがまとまっているポータルサイトがあります。アメリカ政府のdata.govに全く似ていますがおそらく同じシステムを使っているのでしょうか。それにしても、データと言っておいて、PDFがたくさんあるのは勘弁してほしいものです。😱

世界中の台風、ハリケーンデータ

最近ここアメリカではハリケーンが猛威を奮っていますし、さらに日本でも台風18号が大変な被害を各地で起こしていると聞いています。皆さんとご家族、お友達の方たちが無事であることを願っています。こちらに過去の(1842年まで遡ることができます。)世界中のハリケーン、台風、サイクロン等に関するデータがあります。ハリケーンの移動軌跡や風力、気圧など分析できます。こちらにうちの斎藤が軽く分析したものがありますので参考までに御覧ください。

世界中の洪水データ

そして、台風があれば洪水があるということで、こちらに過去にあった世界中の洪水データがあります。こちらは1985年から最近のデータまでとなっています。こちらのリンクから直接エクセルデータをダウンロードできます。こちらに私がちょっとラングリングして日本の洪水だけにしたものがあります。興味ある方は右上のダウンロードボタンより、EDFをダウンロードして、Exploratoryにインポートして始めてみるといいかと思います。

Blog Posts from Team Exploratory

こちらに、最近Team Exploratoryのメンバーが書いたブログポストがありますので、よろしければ参考までにチェックしてみてください。

What We Are Working On?

次のリリース、v4.1に向けていくつかの新しい機能を造ってます。そのうちのひとつに、Markdownノートを使ってプレゼンテーションのスライドを作れるようになる機能があります。 お楽しみに!

ブートキャンプ・トレーニング

最後になりますが、10月の下旬に今年度最後の日本でのデータサイエンス・ブートキャンプ・トレーニングを開催することになりました。もし周りに興味のある方などいらっしゃいましたら、ぜひお声をかけていただければと思います。よろしくお願いします!

それでは、素晴らしい一週間を!

西田, Exploratory/CEO