こんにちは、Exploratoryの西田です!

次回10月のデータサイエンス・ブートキャンプの方が、おかげさまで満席となりましたので、受付の方を終了いたしました。今回も様々なバックグラウンドの方にお申し込みいただいので、10月にお会いできるのが今から楽しみです。

ブートキャンプに関しては、10月以降開催の要望を多くの方よりいただきましたので、少し早いのですが募集を始めます!

次は1月です。データサイエンスの手法やデータ分析をゼロから体系的にいっしょに学びたいという方がいらっしゃいましたら、この機会にぜひご検討下さい!

詳細を見る

それでは、今週のWeekly Updateですが、今回は4本の記事で盛りだくさんです。さっそくいってみましょう!

最近の興味深い英文の記事

データサイエンティストは実際何をやっているのか。35人のデータサイエンティストに聞いてみた

What Data Scientists Really Do, According to 35 Data Scientists - Link

DataCampというオンラインでRやPythonを使いながらデータサイエンスを学ぶためのサービスがあります。そこで、DataFramedというポッドキャストをホストしているHugo Bowne-Andersonが、これまでの様々なデータサイエンティストに対するインタビューをもとにした考察をハーバード・ビジネス・レビューに寄稿していました。

ちなみに、このポッドキャストの方も、データサイエンス界では有名な多くのデータサイエンティスト(Github, Airbnb, Stackoverflow, RStudio, Mckinsey, Buzzfeed, Kaggle, etc.)にインタビューしていて、けっこうおもしろいので、英語が大丈夫な人にはおすすめです。

以下、一部抜粋。


少なくともテック業界においては、だいたいデータサイエンティストが何をしているのかが分かってきました。まず、データサイエンティストはしっかりとしたデータ分析を行うために、信頼に足るデータの基盤を作ります。次に、企業が成長するためのオンラインでの実験(A/Bテスト)を行います。最後に、ビジネスとカスタマーをよりよく理解し、より良い意思決定を行うために、機械学習のモデルを作り、パーソナライズされたデータを作ります。データサイエンスとは、特にテック業界においては、インフラ(基盤)、テスト(A/Bテスト)、意思決定のための機械学習、そしてデータ・プロダクトのことを意味します。

データサイエンティストが必要とするスキルというのは絶えず進化していますが、ディープラーニング(深層学習)は最も必要なスキルというわけではありません。インタビューした多くのデータサイエンティストが、ディープラーニングのモデルを作るための基盤をつくるよりも、新しいことをすぐに学び、ビジネスの質問にデータを使って答えるためのコミュニケーションがうまくできることのほうが重要だと言っていました。つまり、複雑な分析結果を技術的でないステークホルダーにうまく説明できるスキルこそが重要だということです。

これからデータサイエンティストとしてのキャリアを築いていきたいという人は、技術的なことよりも、質問する力にフォーカスするべきです。新しい技術というのは絶えず出てくるものですし、流行りもあります。しかし、クリティカル・シンキング、計量的なスキル、特定の業界、業務に特化したスキルというのはいつも需要があるものです。

産業、社会全般に影響をおよぼすデータサイエンスの革命はまだ始まったばかりです。データサイエンティストという職業は21世紀の最もセクシーな仕事であり続けるのでしょうか。もっと専門化されていくのでしょうか。それとも、プロフェッショナルの仕事をするほぼ全ての人たちに必要なスキルとなるのでしょうか。それは今のところまだはっきりしていません。

Hilary Mason(FastFowardLabのファウンダー、Accel Partnersというベンチャーキャピタルのデータサイエンティスト)は次のように言っています。

「10年後にデータサイエンスというものは存在するのでしょうか?私は、その言葉そのものがなかった時代を覚えています。そして、ウェブマスターという仕事のタイトルのように、それがなくなってしまうときが来ても驚かないでしょう。」

ストーリー・テリングという言葉には気をつけろ

Beware of ‘storytelling’ in data and analytics - Link

読者の中にはストーリー・テリングという言葉を聞いたことがある人は多いのではないでしょうか。簡単に言うと、データから得られたインサイトを、映画や本などのようにストーリーを組み立てながら受け手の興味を引き起こし、わかりやすく伝えるというものです。これはもともとニューヨーク・タイムスがうまくて、昔からこの業界にも大きな影響を与えているのですが、こうしたジャーナリズムの手法がビジネスでも使えるということでここ10年ほどの間に一つの大きなトピックとなりました。

データ分析の結果をステークホルダー、意思決定者にわかりやすく伝えるというのは重要で、そのためにはこうしたストーリー・テリングの手法が使えるのは確かです。ただ、何でもそうですが、一つのことに集中しすぎて、データ分析を行うにあたって他にもある大切なことが疎かになってしまうと問題です。木を見て、森を見ない、というやつですね。

今日は、マッキンゼーでデータサイエンティストでもあり、ピープル・アナリティクスのディレクターでもある、Keith McNultyが、ストーリー・テリングにデータ分析者が深入りしてしまうことの問題と、データ分析者がとるべきアプローチをまとめていました。

私は個人的には、データ分析を行うものとビジネス側の人間というように、この2つをはっきりと分けた上でそれぞれの役割を定義してしまうことに抵抗があります。また、特にビジネスの世界では、理想論と現実の世界にはいつもギャップが存在するものですので、何が良い悪いと白黒はっきりするものではないと思います。それでも、データ分析を行うにあたっての姿勢を学ぶにはいい記事だと思いましたので、こちらで一部を紹介したいと思います。

以下、要訳


データのプロフェッショナルの主な責任として、データ分析から得られた結果をビジネスリーダーが理解できる形で伝えるというものがあります。私はこれには反対です。データのプロフェッショナルの主な責任とは、自分の専門性をもとにした正しいアプローチを追求し、再現性のあって、信用のおける結果を生成することです。それができて初めて、そうした結果のコミュニケーションを考えるべきです。そして、このことは、ビジネス側の人間も、データ分析から得られる結果を自分で理解できるように努力するべきということを意味します。

以下の3つがここを間違えることで起きる失敗のパターンです。

  1. 分析の一部を組織のアジェンダに直接関連づけてしまい、アナリティクスを行う主な理由はすでに決まっているアジェンダを満たすためのナレーションを作ることだと知らず知らずのうちに受け入れてしまう。データ分析は質問にこそ動機づけられるべきであって、組織のアジェンダに動機づけさせられるべきではありません。
  2. データ分析が始まる前から、期待される筋書きがすでに決まっていて、そのことがこの後の意思決定にもバイアスとし影響を及ぼしてしまい、さらに分析者もその筋書きを満たさなくてはいけないのでは、というプレッシャーを感じてしまう。
  3. その分析結果の正確さを様々な角度から質問するかわりに、データ分析の結果をいかにエンターテイメント的にプレゼンテーションするかに多くの時間を使ってしまい、結果として間違った結論を意思決定者に伝えてしまう。

こうした問題に陥ってしまわないためにも、意思決定に関わるデータ分析を行う場合には、私は次の5つの要素からなる、リサーチの現場で使われるアプローチを採用すべきだと思います。

  1. コンテクスト:なぜデータ分析が行われたのかの理由を書き記す。ビジネスや組織がもっている答えるべき質問をはっきりさせる。以前に行われた関連のあるデータ分析の成果を書き記す。データからどんな結論を導き出してもいいということを研究者に保証する。
  2. 手法:どういった分析手法が取られたのかを記録する。なぜ特定の手法が取られたかを明確にする。使われた手法の限界と、弱みを提示し、そのことが分析結果の正確さと信頼に与える影響を説明する。
  3. 結果:分析を再現可能な形で行う。統計的なスタンダードが使われていることを保証する。こうしたスタンダードが満たされていない特殊なケースは全て記録する。
  4. 議論:批評とピア・レビューを可能な限り行う。もしできていないのであればそのことを明らかにする。それまでに行われたデータ分析の結果と比べる。結果から直接導くことのできない結論に関してはそのことを明確にする。特に因果関係がはっきりと確認できない場合は。
  5. 結論:結論がしっかりしていて、慎重な検証をすでに終えているのであれば、それをもっとも効果的にステークホルダーに伝えることを考えるべき。もし、まだ何かはっきりしないことがあれば、さらなる分析が必要なエリアを示す。分析結果を必要以上にプロモート(宣伝)するための言葉やグラフィック(イメージ)を使わないようにする。

以上、要訳終わり。

データ分析に関わり始めたり、学び始めたりするときに、ついついこういったストーリー・テリングやデータの可視化といったことに夢中になってしまうことがあります。私も昔そういう時があったので、この気持ちは痛いほどわかります。

これはロー・ハンギング・フルーツ(Low Hunging Fruits、木の低い部分にぶら下がっているので、取りやすい果実のこと。)だからだと思います。人間はどうしても解決しやすい問題からやり始めてしまう習性があります。つまり、色を変えたり、イメージの写真を探したり、イラストを描いたりといった、キャッチコピーを考えたりと、今まで持っているスキルと、どこかのブログで読んだ、ちょっとしたコツのようなものを使って、何かが良くなったような気がしてしまうのです。そして、本来伝えるべきである最も重要なコンテンツ、つまりこの場合はデータ分析より得られるインサイトそのものの質を磨き上げるということを忘れてしまうのです。

例えば、アメリカと日本という2つの市場があって、アメリカのほうが自分たちにとっては大きいというインサイトがデータから得られたとしましょう。その時、本当にその差には意味があるのか、分析の仕方はあっているのか、元になるデータは正確なのか、データの生成のプロセスに問題はないのか、などといったことを調べることに時間をかける前に、どのようにして「アメリカの市場の方が大きいのか」を見せることに時間を使ってしまうというパターンです。

例え分析手法や、その前提が間違っていたとしても、説得力のあるプレゼンテーションによってその分析結果を信用してしまい、それを元にした意味のないディスカッションに時間をかけてみたり、ものすごい額の投資をしてしまっているということはビジネスの現場では多々あります。

やはり、データを扱う以上、最初から難しい部分、つまり分析手法であり、統計的思考法といったスキルの習得に努めることが、長い目で見れば近道であったりするわけで、最終的には自分のキャリアにとっても関わるビジネスにとっても役に立つと思います。

ハドリー・ウィッカム(Hadley Wickham)のインタビュー

A conversation with Hadley Wickham - Link

こちらのWeekly Updateでも度々出てくる、特にRの世界では神として崇められるほどのハドリー(チーフ・サイエンティスト at RStudio)ですが、彼のインタビュー記事が最近出てました。本文はプログラミングに関する話がメインですが、プログラミングしない人にとってもRやtidyverseに関する有意な考察があったのでその一部を抜粋して紹介します。


なぜ、今日、あなたがRを選ぶべきなのでしょうか?私は、プログラミング言語を選ぶときは技術的に優位かどうかで選ぶのではなく、コミュニティを考慮して選ぶべきだと思っています。Rのコミュニティはとても強く、活気があって、自由で、初心者を優しく受け入れ、そしてその活動範囲は様々な領域にわたります。ですので、Rを使うということは、あなたの(プログラミングもしくはデータ分析における)人生が楽になることを意味します。これが1番目の理由です。

2番めは、これはRの大きな強みでもあり、弱みでもあるかもしれません。Rはただのプログラミング言語ではありません。始めた最初の日からデータ分析ができるようにデザインされています。Pythonなどのほかの言語に比べて、プログラミングを学ぶことに時間を掛けることなく、データサイエンスを始めることができます。コンピューター・サイエンスやソフトウェア・エンジニアリングの正式なトレーニングを受けていなくても簡単に使い始めることができるのです。

例として、Tidyverseの中にある多くのパッケージの中心となるコンセプトとしてtidy data(タイディー・データ)というものがあります。これはシンプルなコンセプトで、データサイエンスをやるときに扱うデータはできるだけ 全ての変数は列にし、全ての観察対象は行にするというものです。データを一度この形にしてしまうと、その後の仕事が一気に楽になります。


以上、抜粋の訳終わり。

データを可視化または分析しやすい形にするというのは、データを手にしたら早い段階で必要とされるデータラングリングのタスクです。この時にtidy data(タイディー・データ)の原則に従い、データを縦に広がる、ロング型にしておくと、後の仕事が楽になります。ただ、そうはいっても逆の場合、つまりロング型から、横に広がるワイド型にしたいという時もたまにあります。重要なのは、こうしてデータを様々な形に自由自在に操ることができると分析の幅が一気に広がるということです。

以下に私達がこうしたデータの整形をExploratoryの中でtidyverseのコマンドを使って行う方法に関したいくつかのブログポストがあるので、興味のある人は是非参考にしてみてください。

  • 横に広がったデータ(ワイド型)を縦に広がるデータ(ロング型)に変換する - Link
  • 縦に広がるデータ(ロング型)を横に広がるデータ(ワイド型)に変換する - Link
  • GatherしてSeparateしてSpreadする - Link

ちなみに、ハドリーはデータサイエンスはUIツールではできない、プログラミングしなくてはいけないというポジションをとっていますが、そんな彼が例外として唯一認めているUIツールがExploratoryというのはあまり知られていません。(リンク

中国がデータとAI、そしてインターネット監視システムを使って国を統治する仕組み

Here’s how China rules using data, AI, and internet surveillance. - Link

これからの10年はデータとAIの時代ですが、その使い方で中国政府の右に出るものはいないのではないでしょうか。この国では、ソーシャル・クレジットのシステムや顔認識システムを使った街なかでの犯罪者の探知など、マイノリティ・レポートなどのSF映画に出てくるような話がものすごい規模で、さらに現在進行系の形で行われています。今回は、MITのTechnology Reviewがそういった取り組みの例を詳しくまとめていたので、一部を紹介したいと思います。

以下、一部抜粋の訳


「どんな authoritarianな支配体制でも、どうやって社会全般の下位層で何が起きているのかを理解するというのは大きな問題です。」

とは、フィラデルフィアのVillanova大学の政治学と中国の専門家であるDeborah Seligsohnの言葉です。

2012までの10年間、中国のリーダーであった胡錦濤はある程度の穏やかな民主的なアプローチを取り、大衆に支配層に不満を伝える手段を与えることでこの問題を解決しようとしました。現在のリーダーである習近平はそのトレンドを巻き戻しました。14億人の国で何が起きているのかを理解し対処するための彼の戦略とは人々の生活と行動を分単位でモニターすることができる監視システムとAI、ビッグデータのシステムを使うことです。

2012年以来、習は2030年までにAI分野で世界のリーダーになるという戦略を含め、この分野では様々な野心的な計画を提示してきました。サイバー主権とよぶもので、センサーシップを強化し、国内のインターネットを完全にコントロールするためのものです。

以前は、地方の役人の不正や粉乳に含まれている毒成分といった問題を訴えるために、請願者は首都にやってきたものです。

最近は警察がそういった請願者を北京に来る前に止めることが多くなりました。列車に乗るためのチケットを買うにはナショナルIDが必要です。これを使うことで、政府は、過去に抗議活動を行ったことがあるというような、今後問題になりそうな人間を特定することができます。ブロガー、アクティビスト、弁護士はシステム的に沈黙させられるか刑務所に送られます。

中国では、テクノロジーと統治をリンクさせる一つの大きな青写真と言うものがあるわけではありません。しかし、いくつものイニシアチブは、意思決定に役立てるための人と企業に関するデータを集め、人々の行動に影響を与えるための褒美と罰を与えるシステムを作るための戦略を共有しています。

State Council’s 2014、ソーシャル・クレジット・システム、2016 サイバー法、様々なソーシャル・クレジットに関する地方レベル、私企業による実験、スマート・シティ計画、新疆ウイグル自治区西部のテクノロジー・ドリブン政策などがこうしたイニシアチブの一環です。それらの多くが、政府と中国のテック企業のパートナーシップという形で行われています。

過去5年、司法システムは、過去に罰金を払ってない人、司法判断に従っていない人の名前のリストを公表してきました。ソーシャル・クレジットの法律のもとでは、様々なビジネスと政府の期間がこのリストを共有します。このリストに載っている人たちはお金を借りる、飛行機のチケットを買う、高価なホテルに泊まるといった行為を制限されています。

中国の政府系の輸送企業群は追加のブラックリストを作り、列車のドアが閉まるのを止めたり、旅行中に喧騒を起こした人たちをリストに載せています。こうした違反者は、6ヶ月から12ヶ月の間チケットの購入をすることができません。

今年のはじめには、政府はいくつかのブラックリストを発表し、「正直」でない企業は政府関連の契約や土地の助成金がもらえなくなってしまいました。

いくつかの地方都市はソーシャル・クレジット・スコアのシステムを実験中です。栄成市の北部にある町では740,000の住民一人ひとりにスコアをつけています。すべての人は1,000ポイントからスタートします。チャリティ活動に寄付したり政府から表彰されたりするとポイントが追加されます。飲酒運転や、スピード違反、道の横断などといった交通ルール違反をするとポイントが減ります。良いスコアを持つ人は冬の暖房設備のディスカウントがもらえ、有利な不動産ローンを組むことができます。逆に悪いスコアだと、銀行ローンが組めなかったり、政府系の仕事での昇進ができなくなったりします。高いスコアを取って、道徳を示した人は地域のロールモデルとして市役所にポスターとして飾られます。

「ソーシャル・クレジットのアイデアとは、人と組織がどのように行動するのかをモニターして、管理するための仕組みです。」

とはドイツのベルリンのMercator Institute for China StudiesのSamantha Hoffmanの言葉です。

「一度、違反が一つのシステムの中で記録されると、他のシステムにも影響を及ぼします。経済開発と社会の管理を支援するためのコンセプトということですが、それが政治的な動機をもつのは避けられるません。」

こうしたものはUSにもすでにあります。例えば悪いクレジット・スコアは住宅ローンが組めなかったり、重犯罪を犯した人は投票できなかったりというものです。しかしそれらは同じように統合されていません。

ここで大きな懸念なのは、中国には独立した司法機関がないということです。市民は、間違っていたり不正確な疑惑を正すための手段を持っていないのです。

「テクノロジーがこうした政策を作り出したわけではありません。しかし、テクノロジーは中国政府が個人についての大量のデータを集めることを容易にしているのです。中国のインターネットはリアルタイムでプライベートに管理されているデジタル・インテリジェンス・サービスとなってしまっています。」

とは、Lowy Instituteのシニアフェローで、”The Party: The Secret World of China’s Communist Rulers”の著者でもあるRichard McGregorの言葉です。


一部抜粋の訳終わり。

この記事を読んで恐ろしいと感じるのは、今日のテクノロジーとデータを使えば技術的には当たり前にできることが、この国では普通にできてしまっているということですね。

データの世界では、昔から多くのテック企業が、様々なデータを統合したソリューションというものを売りにしてきたわけですが、そういったものは一つの企業の中でも、技術的な問題と言うよりも、社内政治的な問題、レガシーシステムの問題などがあって、なかなか難しかったりします。

また、アメリカの政府レベルでも同じように様々な機関のデータベースを統合するという試みは昔から行われいています。逆にそれができていないせいで2001年のテロ攻撃を防げなかったなどという議論もあったわけです。当時、私が働いていたOracleという会社のCEOであったラリー・エリソンはナショナルIDを導入すべきだと声高に叫び、せっせとOracleのデータベースとアプリケーションを政府に売っていたのが懐かしいです。

ただ私は、データの統合自体に問題があるわけではあると思いませんし、またそこでAIを活用することにも問題があると思いません。そうしたことによって得られる利益が、不利益よりも大きいのであればです。

ただ、何のためにそうしたデータの統合とAIの活用が行われるのか、どのようにそれが行われるのか、誰が行うのか、といったことを国民の前でしっかり議論して進めていくのが民主主義の国では当たり前だと仮定されています。もちろん、こうしたことをこっそりとやってて、エドワード・スノーデンによって暴露され、大問題になったNSA(The National Security Agency)のような例もありますが、この場合でも、それが人権、倫理の点から問題だとして認識されます。

しかし、中国のような先制主義の国ではそうした政府が行うことが問題として自由に議論されることはありません。そして、必ずしも民主的に選ばれたわけではない政府によって行われるこうしたデータの統合やAIの活用によって得られる大きな力が一般の人達の利益というよりも、一部の人達の利益となってしまっていることがさらに深刻な問題となるのではないでしょうか。

こうした力を持った人間は、自分と敵対する勢力、意見を異にする人たちを犯罪者としてシステムに登録してしまうことができるわけですから、この様な取り組みは長期的にはこの国を発展させると言うよりも、逆に後退させてしまうのではと思ってしまいます。

Quote of the Week

“The secret of getting ahead is getting started. The secret of getting started is breaking your complex overwhelming tasks into smaller manageable tasks, and then starting on the first one.”

“先へ進むための秘密は、始めるということだ。始めるための秘密は、複雑で参ってしまいそうなタスクを分解して小さくてできそうなレベルのタスクに落とし込み、最初の一つ目からやり始めることだ。”

by Mark Twain

What Are We Writing?

先週は、以下の記事をTeam Exploratoryより出しました。

What Are We Working On?

Exploratory v5.0

プロジェクトの中にたくさんのデータフレームがたまってくると、オーガナイズするのが大変になってきます。そこで、フォルダーのサポートを追加します。こちらのフォルダーにドラッグ・アンド・ドロップで好きなデータフレームを動かすことができるようになります。

これは、データフレームだけではなくて、ノートやダッシュボードも同じようにフォルダーを使ってオーガナイズすることができるようになります!

さらに、マウスをデータフレームの上に持ってくると高速でデータフレームのフルネームが表示されるようになっています。長い名前をつけているときなどに便利です。

次回データサイエンス・ブートキャンプ10月開催!

冒頭にも触れましたが、10月のデータサイエンス・ブートキャンプはすでに満席となってしまいましたので、その次の開催の募集を始めます。次は1月です!

データサイエンスの手法やデータ分析をゼロから体系的にいっしょに学びたいという方がいらっしゃいましたら、この機会にぜひご検討下さい!

詳細を見る


それでは、今週は以上です。素晴らしい一週間を!

西田, Exploratory/CEO
KanAugust(Twitter)


こちらのExploratory’s Weekly UpdateはExploratoryのユーザー以外の方も無料で購読できます。まだEmailを登録されていない方はこちら よりどうぞ!皆さんのお役に立つと思うデータサイエンス関連のニュースをまとめたものを週一度配信いたします。