Exploratoryを使うと、データサイエンスの基本的な以下の5つのタスクをUIから簡単に行うことができます。
そこで、Exploratoryを始めるにあたっての簡単なチュートリアルのリストを5つのカテゴリー別にまとめましたので、必要に応じて参照して下さい。
それぞれのチュートリアルは、ダウンロード先の書いてあるサンプルデータを使ってステップ順にやっていくことができます。どれもだいたい5分前後でできるほどにシンプルなものになっています。
こちらは現在、Exploratory Publicではサポートされておりませんが、将来のバージョンでサポートされる予定です。
Exploratoryにはエクステンションデータと言って、ユーザーが勝手に追加していくことのデータタイプがあるのですが、Team Exploratoryもそのフレームワークを使って新しいデータタイプを実験的に追加していっています。
以下はそのうちの2つのエクステンションデータを使ってデータをExploratoryに取り込む方法のチュートリアルです。
「繰り返し」を使って、例えば国や月ごとにチャートを分けて複数表示し、トレンドやパターンを比べることができます。
これはExploratory固有の機能の一つに、「ピン」とものがありますが、これはチャートやアナリティクスを右側に表示されているデータラングリングの特定のステップに固定するための機能です。
Exploratoryが始めての方は最初は戸惑うかもしれませんが、慣れるとすごく便利な機能なので、以下のノートに簡単にまとめました
Exploratoryでは、右側にあるデータラングリングのステップでデータ自体をフィルタすることもできますが、実は特定のチャートのデータだけをフィルタすることもできます。これを、「チャート・フィルター」と呼びますが、こちらの紹介です。
Exploratoryでは、チャートやアナリティクスにコメントを入れていくことができます。
探索的データ分析をしているときなど、たくさんのチャートを作って様々なインサイトを得ていく過程で、それらを忘れる前にコメントとして残しておくことで、後でレポートをまとめるときなどに便利です。
Exploratoryのチャートの中で、Y軸に割り当てられた列の数値に以下のような表計算を適用することで、様々な視点からデータを可視化していくことができます。
タイプ | 例 |
---|---|
% of (合計) | 合計に対する割合など。 |
差 | 平均からの差、最初の値からの差など。 |
差の割合 | 平均からの差の割合、最初の値からの差の割合など。 |
移動 | 移動平均、複数期間の合計など。 |
Exploratoryでは、チャートの中で直接、数値データを区切っていくつかのグループに分けることで、カテゴリーデータとして可視化することができます。
例えば、国ごとに売上を可視化しているときに、日本などの一部の国のみを強調したいという時があります。そういった時、チャートにある特定のグループをハイライトして強調することができます。
データをインポートすると、いくつかの列が自分が期待しているデータ型になっていないということはよくあります。そんな時には列ヘッダーメニューから簡単に変換していくことができます。
Exploratoryでは、専用のダイアログで簡単に計算を作成し、既存の列を上書きしたり、新しい列を作ったりすることができます。
別にインポートしたデータと結合して列を足したり、行を足したり、さらには参照先のデータをもとにフィルタしたりすることができます。
例えば、それぞれの年が別れてそれぞれの列になっていたり、国の名前が列になっていたりするデータがあります。こういうデータは、「年」、「国」といった一つの列に全ての年なり国なりの値を入れてしまったほうが、データの可視化や分析がしやすくなることがよくあります。
前出の逆です。一般的にはデータは縦長に持っていたほうが可視化、分析しやすいのですが、逆に横長に持っていたほうが便利な場合もあります。
この2つの方法を知っていれば、目的に応じて柔軟にデータを操ることができます。
Exploratoryの中で加工したデータを、Exploratoryクラウドの方にパブリッシュすることでプライベート・モードかパブリック(公開)モードのどちらかで共有することができます。
パブリッシュされたデータはサマリ・ビューやスーパ・テーブル・ビューでウェブ・ブラウザに表示されるので、共有された人にとって見やすい環境でデータを共有することができます。
ランダムフォレストは機械学習のアルゴリズムの一つで、特に探索的なデータ分析の際によく使われます。
比較的使いやすいアルゴリズムで、データの中にあるパターンをもとに予測モデルを作るのですが、このモデルを使ってデータの中の関係性を解き明かしていくことができます。
Exploratoryの中で作ったチャートやアナリティクスをまとめて一つのダッシュボードに入れ、それをパブリッシュして共有したり、スケジュールしてモニターしたりすることができます。
データを可視化したり分析したりして得られたインサイトはノートとしてまとめ、さらにフォーマットしたり、画像やビデオを入れたりすることで、他の人に伝えやすいストーリーを作り上げていくことができます。
パラメーターを使って、ダッシュボードやノートなどをインタラクティブにすることができます。
例えば、データを取ってくるためのSQLの一部にパラメーターを入れることでダッシュボードを見ている人がSQLを操ることができたり、データラングリングのステップの一部にパラメーターを入れることでノートを見ている人がデータラングリングやアナリティクスを操ることができるようになったりします。