こんにちは、Exploratoryの西田です。
今週も3本ほどおもしろいデータ関連の記事を紹介したいと思いますが、その中の一つの「ほんとうにエビデンスにもとづいた政策などというものは存在しない」というのは、ノーベル経済学賞の2013年の受賞者であるラース・ハンセンによるエッセイで、長いです。
しかし、データを使ってよりよい意思決定をしていきたいという人には知っておいてもらいたい、データの限界、さらにはサイエンスの限界について、経済政策という視点からですが、うまくまとめられているので、ぜひ読んでいただければと思います。
ところで、この3月にデータサイエンス・ブートキャンプ・トレーニングのために来日するタイミングでセミナーをやります。ビジネスの問題をデータサイエンスを使って解決していくためのフレームワークであるアナリティカル・シンキングの紹介と、それをセールス・マーケティングの分野に適応したユースケースの話をする予定です。
興味のある方はぜひご参加ください。3月13日(水)の夕方6:30PMからです!
それでは、今週のWeekly Update、さっそくいってみましょう!
最近、2013年にノーベル経済学賞を受賞したシカゴ大学の計量経済学の大御所、ラース・ハンセンから、「エビデンス・ベースド・ポリシーなんていうものはマーケティングでしかない」という強い警鐘を兼ねたメッセージが発信されていました。
このエッセイは、もちろん経済や政治の分野だけでなく、ビジネスの世界でデータをもとに意思決定を行っている、もしくは行っていこうという人にはぜひ目を通していただければと思います。
「エビデンス」、「データドリブン」、「ビッグデータ」というマーケティング用語についつい惑わされがちですが、彼がこのエッセイの中で主張するように、データではなく、データに意味付けを与えてくれるモデルこそが重要です。ただ、そのモデルにも限界があるのだ、ということをもっと多くの人に気づいてもらえればと思います。
データサイエンスという言葉はまだ流行っていますが、ひょっとしたらあなたの組織にとっては必要ないかもしれません。
この重要な問いに答るためにはまず、そもそもデータサイエンスの目的とは何なのか、どういった組織がデータサイエンスをやるにふさわしいのかを理解する必要があります。
この点についてうまくまとめられている記事が、シリコンバレーのInstacartで、データサイエンスのVP(バイス・プレジデント)をやっているJeremy Stanleyと、元LinkedInのデータリーダーで今はテクニカル・アドバイザーをやっているDaniel Tunkelangによって最近出されていたので、紹介したいと思います。
私がシリコンバレーに移った2000年ころは、カメラと言えば日本、つまりキャノン、ソニー、ニコンといったかんじでしたが、今やそんな面影すらありません。すっかりAppleかGoogleという時代になってしまいました。
これはカメラがソフトウェアに飲み込まれてしまったからですが(少なくとも一般消費者にとっては。)、現在ソフトウェアの中でも特にAIのレイヤーによって、カメラはこれからもさらに進化していくことが期待されています。
この10年ほどは、「Software is eathing the world(ソフトウェアが世界を食べる)」という言葉がよく使われていましたが、現在はすっかり「AI is eathing the world(AIが世界を食べる)」という時代になったようです。こうしたトレンドをわかりやすいかたちで見ることができるのがカメラの世界です。
Weekly UpdateでもおなじみのBenedict Evans(A16Zというシリコンバレーのトップクラスのベンチャー・キャピタルのアナリスト)による、このトレンドの今、そしてこれから将来どうなっていくのかについての考察がおもしろかったので、ここで要約というかたちで紹介します。
“Shallow men believe in luck or in circumstance. Strong men believe in cause and effect.”
考えの浅い人は運や状況のせいにするが、強い人は因果関係を調べる。
by Ralph Waldo Emerson
先週は、以下の記事を書きました。
Exploratoryの次期バージョン、v5.1にワードクラウドというチャートが追加されますが、その使い方に関する記事です。
v5.1のリリースがいよいよ迫ってきました。今週の予定です!
以下、2つの新機能の紹介です!
ロジスティック回帰のモデルはその解釈にくせがあるので、結構多くの人が食わず嫌いになっていたりします。モデルから出てくる係数やオッズ比の解釈の仕方が直感的ではないからです。
そこで、実は経済学や政治学の分野ではよく使われている、限界効果(Marginal Effect)というものをアナリティクス・ビューのロジスティック回帰でサポートすることにしました。
上のチャートはもともと変数ごとの係数を可視化するものですが、Y軸を限界効果にスイッチしたものです。(プロパティからの設定になります。)
この場合は、予測変数(例:赤ちゃんの体重)の値が1ポイント上がると、ターゲット変数(例:早産になるかどうか)がTRUEになる確率がY%上がるというふうに解釈できるので、オッズ比などに比べてもっと直感的に解釈できます。
数値データの分布を表すのによくヒストグラムを使いますが、いくつか問題があります。
こうした時に便利なのが、Density Plot(密度プロット)というチャートのタイプで、kernel smoothingというアルゴリズムを使って、ヒストグラムで見えるような分布を滑らかにして可視化してくれます。
「繰り返し」もサポートされるので、数値データをカテゴリーごとに比べる時に便利です。
今年の5月から新しく「アナリティカル・シンキング for セールス・アナリティクス」というデータサイエンス・トレーニングを始める予定です。
営業やマーケティングに関わる方たちが機械学習・統計モデルを使いこなし、ビジネスを改善していけるようになるためのトレーニングです。
そこで、この3月13日(水)に、アナリティカル・シンキングのセミナーの一部としてこちらのトレーニングのプレビューをしたいと思っています。
興味のある方は、ぜひ遊びに来てください!
来月3月に東京でブートキャンプを行います。まだ週末版の席の方に空きがありますので、データサイエンス、統計の手法、データ分析を1から体系的にいっしょに学びたいという方は、ぜひこの機会に参加をご検討ください!
それでは、今週は以上です。素晴らしい一週間を!
西田, Exploratory/CEO
KanAugust(Twitter)
こちらのExploratory’s Weekly UpdateはExploratoryのユーザー以外の方も無料で購読できます。まだEmailを登録されていない方はこちら よりどうぞ!皆さんのお役に立つと思うデータサイエンス関連のニュースをまとめたものを週一度配信いたします。