Exploratoryの始め方ガイド

Exploratoryを使うと、データサイエンスの基本的な以下の5つのタスクをUIから簡単に行うことができます。

  • データ・アクセス
  • 可視化
  • データ・ラングリング(加工)
  • アナリティクス(統計、機械学習)
  • 伝える(ダッシュボード、ノート、スライド)

そこで、Exploratoryを始めるにあたっての簡単なチュートリアルのリストを5つのカテゴリー別にまとめましたので、必要に応じて参照して下さい。

それぞれのチュートリアルは、ダウンロード先の書いてあるサンプルデータを使ってステップ順にやっていくことができます。どれもだいたい5分前後でできるほどにシンプルなものになっています。

データアクセス

2. Google Sheetデータ

こちらは現在、Exploratory Publicではサポートされておりませんが、将来のバージョンでサポートされる予定です。

3. ウェブ・スクレイピング

ウェブサイトにテーブルとして埋まっているデータを簡単に取り組むことができます。

4. エクステンションデータ

Exploratoryにはエクステンションデータと言って、ユーザーが勝手に追加していくことのデータタイプがあるのですが、Team Exploratoryもそのフレームワークを使って新しいデータタイプを実験的に追加していっています。

以下はそのうちの2つのエクステンションデータを使ってデータをExploratoryに取り込む方法のチュートリアルです。

サマリ・ビュー

Exploratoryにデータをインポートするとまず最初に目にするのが「サマリ・ビュー」です。このビューを使うとデータの概要をすばやく理解することができます。

データの可視化(チャート)

基本

1. 初めてのチャートの作成

Exploratoryでチャートを使うにあたっての基本的な操作の説明です。

2. 色を使ってグループ分けする

Exploratoryではラインチャートの線を複数にしたり、バーを分割したりする時は、「色」を使いますが、その具体的な使い方です。

3.「繰り返し」を使う

「繰り返し」を使って、例えば国や月ごとにチャートを分けて複数表示し、トレンドやパターンを比べることができます。

4.「ピン」機能を使う

これはExploratory固有の機能の一つに、「ピン」とものがありますが、これはチャートやアナリティクスを右側に表示されているデータラングリングの特定のステップに固定するための機能です。

Exploratoryが始めての方は最初は戸惑うかもしれませんが、慣れるとすごく便利な機能なので、以下のノートに簡単にまとめました

5. データをフィルターする

Exploratoryでは、右側にあるデータラングリングのステップでデータ自体をフィルタすることもできますが、実は特定のチャートのデータだけをフィルタすることもできます。これを、「チャート・フィルター」と呼びますが、こちらの紹介です。

6. コメントを入れる

Exploratoryでは、チャートやアナリティクスにコメントを入れていくことができます。

探索的データ分析をしているときなど、たくさんのチャートを作って様々なインサイトを得ていく過程で、それらを忘れる前にコメントとして残しておくことで、後でレポートをまとめるときなどに便利です。

7. チャートを共有する

Exploratoryで作ったチャートは簡単にウェブにパブリッシュして共有することができます。

次のステップとして

表計算を使う

Exploratoryのチャートの中で、Y軸に割り当てられた列の数値に以下のような表計算を適用することで、様々な視点からデータを可視化していくことができます。

タイプ
% of (合計) 合計に対する割合など。
平均からの差、最初の値からの差など。
差の割合 平均からの差の割合、最初の値からの差の割合など。
移動 移動平均、複数期間の合計など。

数値データを区切る

Exploratoryでは、チャートの中で直接、数値データを区切っていくつかのグループに分けることで、カテゴリーデータとして可視化することができます。

カテゴリデータを制限する

チャートに表示される国や顧客といったカテゴリー型のデータを「条件」を使ったり、上位10に絞ったりして制限することができます。

特定のグループをハイライトする

例えば、国ごとに売上を可視化しているときに、日本などの一部の国のみを強調したいという時があります。そういった時、チャートにある特定のグループをハイライトして強調することができます。

データ・ラングリング(加工)

1. データタイプを変換する

データをインポートすると、いくつかの列が自分が期待しているデータ型になっていないということはよくあります。そんな時には列ヘッダーメニューから簡単に変換していくことができます。

2. 計算を作成する

Exploratoryでは、専用のダイアログで簡単に計算を作成し、既存の列を上書きしたり、新しい列を作ったりすることができます。

3. データをフィルターする

Exploratoryではデータを自由自在にフィルターすることができますが、まずは代表的なものをこちらに紹介しています。

4. データを集計する

UIを使ってもとのデータをグループごとの集計データに簡単に変換することができます。

5. 他のデータフレームと結合する

別にインポートしたデータと結合して列を足したり、行を足したり、さらには参照先のデータをもとにフィルタしたりすることができます。

6. 複数の列を一つの列にまとめる

複数の列の値を一つにまとめて、新しい列として作ることができます。

7. 列を分割する

前出の逆で、一つの列に入っている値を、例えばコンマやスペースなどを区切り文字にして分割することができます。

8. 横長のデータを縦長にする

例えば、それぞれの年が別れてそれぞれの列になっていたり、国の名前が列になっていたりするデータがあります。こういうデータは、「年」、「国」といった一つの列に全ての年なり国なりの値を入れてしまったほうが、データの可視化や分析がしやすくなることがよくあります。

9. 縦長のデータを横長にする

前出の逆です。一般的にはデータは縦長に持っていたほうが可視化、分析しやすいのですが、逆に横長に持っていたほうが便利な場合もあります。

この2つの方法を知っていれば、目的に応じて柔軟にデータを操ることができます。

10. データを共有する

Exploratoryの中で加工したデータを、Exploratoryクラウドの方にパブリッシュすることでプライベート・モードかパブリック(公開)モードのどちらかで共有することができます。

パブリッシュされたデータはサマリ・ビューやスーパ・テーブル・ビューでウェブ・ブラウザに表示されるので、共有された人にとって見やすい環境でデータを共有することができます。

アナリティクス(統計、機械学習)

ランダムフォレスト

ランダムフォレストは機械学習のアルゴリズムの一つで、特に探索的なデータ分析の際によく使われます。

比較的使いやすいアルゴリズムで、データの中にあるパターンをもとに予測モデルを作るのですが、このモデルを使ってデータの中の関係性を解き明かしていくことができます。

プロフェットを使った時系列予測

線形回帰分析

生存分析

レポーティング

ダッシュボード

Exploratoryの中で作ったチャートやアナリティクスをまとめて一つのダッシュボードに入れ、それをパブリッシュして共有したり、スケジュールしてモニターしたりすることができます。

ノート

データを可視化したり分析したりして得られたインサイトはノートとしてまとめ、さらにフォーマットしたり、画像やビデオを入れたりすることで、他の人に伝えやすいストーリーを作り上げていくことができます。

パラメーター

パラメーターを使って、ダッシュボードやノートなどをインタラクティブにすることができます。

例えば、データを取ってくるためのSQLの一部にパラメーターを入れることでダッシュボードを見ている人がSQLを操ることができたり、データラングリングのステップの一部にパラメーターを入れることでノートを見ている人がデータラングリングやアナリティクスを操ることができるようになったりします。