ハドリー・ウィッカム(Hadley Wickham)のインタビュー

A conversation with Hadley Wickham - Link

こちらのWeekly Updateでも度々出てくる、特にRの世界では神として崇められるほどのハドリー(チーフ・サイエンティスト at RStudio)ですが、彼のインタビュー記事が最近出てました。本文はプログラミングに関する話がメインですが、プログラミングしない人にとってもRやtidyverseに関する有意な考察があったのでその一部を抜粋して紹介します。


なぜ、今日、あなたがRを選ぶべきなのでしょうか?私は、プログラミング言語を選ぶときは技術的に優位かどうかで選ぶのではなく、コミュニティを考慮して選ぶべきだと思っています。Rのコミュニティはとても強く、活気があって、自由で、初心者を優しく受け入れ、そしてその活動範囲は様々な領域にわたります。ですので、Rを使うということは、あなたの(プログラミングもしくはデータ分析における)人生が楽になることを意味します。これが1番目の理由です。

2番めは、これはRの大きな強みでもあり、弱みでもあるかもしれません。Rはただのプログラミング言語ではありません。始めた最初の日からデータ分析ができるようにデザインされています。Pythonなどのほかの言語に比べて、プログラミングを学ぶことに時間を掛けることなく、データサイエンスを始めることができます。コンピューター・サイエンスやソフトウェア・エンジニアリングの正式なトレーニングを受けていなくても簡単に使い始めることができるのです。

例として、Tidyverseの中にある多くのパッケージの中心となるコンセプトとしてtidy data(タイディー・データ)というものがあります。これはシンプルなコンセプトで、データサイエンスをやるときに扱うデータはできるだけ 全ての変数は列にし、全ての観察対象は行にするというものです。データを一度この形にしてしまうと、その後の仕事が一気に楽になります。


以上、抜粋の訳終わり。

データを可視化または分析しやすい形にするというのは、データを手にしたら早い段階で必要とされるデータラングリングのタスクです。この時にtidy data(タイディー・データ)の原則に従い、データを縦に広がる、ロング型にしておくと、後の仕事が楽になります。ただ、そうはいっても逆の場合、つまりロング型から、横に広がるワイド型にしたいという時もたまにあります。重要なのは、こうしてデータを様々な形に自由自在に操ることができると分析の幅が一気に広がるということです。

以下に私達がこうしたデータの整形をExploratoryの中でtidyverseのコマンドを使って行う方法に関したいくつかのブログポストがあるので、興味のある人は是非参考にしてみてください。

ちなみに、ハドリーはデータサイエンスはUIツールではできない、プログラミングしなくてはいけないというポジションをとっていますが、そんな彼が例外として唯一認めているUIツールがExploratoryというのはあまり知られていません。(リンク