こんにちは、Exploratoryの西田です。
こちらサンフランシスコも今週は夏並みに熱くなってきており、ビーチ日和な日々となってきています。
ところで、先週は東京に2日間ほど、「探索的データ分析とSaaSアナリティクス」のセミナーのために行ってきました。久々にお会いすることができた方を含めたくさんの方に来ていただき、感謝しております。
現在、以下の3つのデータサイエンス・トレーニングの参加者を受付中です。特にブートキャンプに関しては現在早割中ですので、興味のある方はこの機会に参加をご検討ください。
それでは、今週のWeekly Update、さっそくいってみましょう!
ジョン・テューキーという人の名前は皆さん聞いたことありますか?
それまでは、われわれ人間の持っている仮説をデータを使って検証するというのが統計学の主流であった70年代に、その仮説そのものをデータから構築していくことにもっと時間を費やすべきだと提唱した人です。
その後彼はそうした手法や考え方を一冊の本にまとめ、「Exploratory Data Analysis」という名前の本として出版しています。このExploratory Data Analysisという分析手法は日本語では「探索的データ分析」として知られています。
ちなみに私が仲間とやっている会社の名前であり、そこで作っているデータ分析のためのプロダクトの名前でもある「Exploratory」はここから来ています。
なので、私達にとってこのジョン・テューキーという人は、神様のような人で大変思い入れが強い人でもあるのですが、よく考えたら今まで落ち着いて外に向かって話したことがありませんでした。
そのうち機会をみてまとめてみようかなと思っていたのですが、最近、Jonhs Hopikins大学でデータサイエンスを教えるRoger D. Pengが、ジョン・テューキーの論文「The Future of Data Analysis」に関する考察を寄せていて面白かったのでここで紹介したいと思います。
アメリカのベンチャー・キャピタル業界では泣く子も黙る、セコイア・ベンチャーというのがあります。
昔から次から次へとユニコーン規模のスタートアップを世に送りだしている、この業界ではだんとつナンバー・ワンのファームですが、スタートアップにとっていろいろと役に立つ情報も結構共有してくれています。こういった情報は他のファームから出てくるものに比べて圧倒的に質が高いのですが(例えばベンチャーキャピタルへのピッチはみんなここのテンプレートを使ってたりする)、最近データ・インフォームドな会社の作り方という記事が出ていました。
シリコンバレーではデータを使って、データ・バーチュアス・サイクルを作り、プロダクトをどんどんと改善していくことで競争優位を作り、それによってビジネスを急成長させていくというのが当たり前になってきているので、それなりに知見もたまってきているし、ある意味これくらいのことはスタートアップであればみんな知っておいたほうがいいということなのかもしれません。
ということで、日本のみなさん、特にスタートアップの方たちにはぜひ知っておいてほしいなと思い、要訳を3回に分けて共有していきたいと思います。
ネイト・シルバーという選挙やスポーツの結果をフォーキャスト(予測)することで有名な人がアメリカにいます。彼は、「シグナル&ノイズ」という本も書いていますが、予測とか確率に興味のある人はぜひ読んでいただければと思います。
で、彼が運営しているFiveThirtyEightという彼と彼のチームが選挙やスポーツの試合があるたびに行なうフォーキャストを公表するウェブサイトがあるのですが、これまでのフォーキャストの結果がどれくらい正しかったのか(もしくは、どれくらい間違っていたのか)を評価したようなのですが、その結果を公表しています。
結論から言うと、彼らのフォーキャストの精度はなかなか高く、特にスポーツに関してはかなりの精度で当てているというのがわかりました。
ただ、このときに注意しなくてはいけないのは私達、フォーキャストを読み取る側にどれだけ確率に対する理解があるかということです。
“Far better an approximate answer to the right question, which is often vague, than an exact answer to the wrong question, which can always be made precise.”
正しい質問に対してのだいたいの答えのほうが、間違った質問に対する正確な答えよりもよっぽどいい。
by ジョン・テューキー
先週から、最近新しくTeam Exploratoryに参加したTakatoがデータの可視化をExploratoryを使って勉強していくシリーズを始めました。それぞれのエピソードは一口サイズなので、ぜひチェックしてみてください。
Treasure Dataサポート
日本ではよくTreasure Dataを使っているお客様に出会うことが多いですが、ようやく次のバージョンからサポートされます。
もし待てない人は、現行のバージョンでもカスタムのRスクリプトを書いてデータを取ってくることができます。こちらにノートを書いたので参考にしてください。
探索的データ分析
次期バージョンのv5.2は探索的データ分析をさらに行いやすくするための機能強化を行います。特に、以下のチャートに関する機能強化を予定しています。
さらにチャートの色の設定周りも使いやすくしていく予定です。
楽しみにしていてください。
この5月には以下の2つの新しいトレーニングを開催します!
SaaS/サブスクリプション・ビジネスを改善していくためのKPIの構築から、データサイエンスの手法を使ったデータ分析、施策立案までのスキルを身につけていただくことを目的としたトレーニングです。
5月20日 (月)です!
ビジネスの問題を解決するための仮説をデータから構築していく「探索的データ分析」の手法と、そうした分析に役立つ様々なチャートとアナリティクスの効率的な使い方を身につけていただくためのトレーニングです。
5月27日 (月) です!
毎回好評をいただいているデータサイエンス・ブートキャンプですが、次の開催は7月です!
データサイエンス、統計の手法、データ分析を1から体系的に学び、ビジネスの現場で使えるようになりたいという方は、ぜひこの機会に参加をご検討ください!
現在、早割期間中ですので、お早めに!
それでは、今週は以上です。素晴らしい一週間を!
西田, Exploratory/CEO
KanAugust(Twitter)
こちらのExploratory’s Weekly UpdateはExploratoryのユーザー以外の方も無料で購読できます。まだEmailを登録されていない方はこちら よりどうぞ!皆さんのお役に立つと思うデータサイエンス関連のニュースをまとめたものを週一度配信いたします。