スタートガイド

所要時間 (初めから終わりまで) : 約60分

このチュートリアルは、米国の航空機の発着遅延データの分析を探索的に行っていくというシナリオに沿って、Exploratory デスクトップの使い方を効率的に学んでいこうとするものです。主に以下のExploratoryの機能に触れます。

  • 新しいプロジェクトを作成してデータをインポートする
  • サマリ(要約)ビューでデータの概要を理解する
  • データの加工(データ・ラングリング)
  • 文字データの解析と日付への変換
  • 複数の列に列を分ける
  • 欠損値を扱う
  • データの可視化
  • ピボットテーブルと表計算(Window Calculation)
  • ラインチャートと表計算(Window Calculation)
  • 散布図 (線形回帰モデルと一般化加法モデル)とトレンドライン
  • 機械学習 のアルゴリズムを使う
    • Random Forestを用いた変数重要度
  • ダッシュボードを作成して、共有する

ステップを進んでいく際にご質問がある場合は、チャットウィンドウからお気軽にお問い合わせください。

または、support@exploratory.ioまでe-mailで質問を送ってくだされば、対応いたします。

準備

サンプルデータのダウンロード

このチュートリアルでは、2016年9月に飛行したアメリカの国内線すべての離発着に関するデータを使用します。

  • 出発/到着遅延時間の遅れや早さ。
  • どこから出発してどこに到着したのか。
  • それぞれのフライトでどのくらいの距離を飛んでいたか。

サンプルデータのCSVファイルは、下のリンクからダウンロードできます。

それでは、さっそく始めましょう!

新しいプロジェクトを作成する

Exploratory デスクトップを起動し、まず新しいプロジェクトを作成します。

プロジェクト名を入力し、「作成」ボタンをクリックします。

すると、新しいプロジェクトが開きます。さっそくデータをインポートしてみましょう。

データをインポートする

プロジェクトの中で、左側にある「データフレーム」というテキストの右側にある 「+」(プラス)ボタンをクリックし、ドロップダウンリストから 「ファイルデータ」を選択します。

先ほどダウンロードした、「airline_delay_2016_09.csv」というファイルを選択すると、最初の50行がプレビューテーブルに表示されます。

(この時点でまだデータをダウンロードされていない場合は、こちらからダウンロードしてください。)

ここでは、そのまま「保存」ボタンをクリックして、データをインポートしてください。

インポートされたデータは、サマリ(要約)・ビューで以下のように表示されます。

上部の「サイドバーを隠す」ボタンをクリックすると、左側のセクションが非表示になり、サマリ・ビューの領域が広くなります。

サマリ・ビューでデータの概要を理解する

最初に出てくるサマリ・ビューでは、データの概要をすばやく確認できます。

たとえば、CARRIER列を見ると、12の一意な値があることがわかります。

これは12の航空会社ということになります。さらにバーチャートの部分を見ると、行数が多い順に上位7つの航空会社のコードがリストされているのが確認できます。

それぞれのバーの上に表示されている数字は行の数を表します。South West (WN)、Delta (DL)、American Airline (AA)に関するデータが多いようです。

それでは、次のセクションでは、このデータをもう少し分析しやすいように、データ・ラングリング(データの加工)をしてみましょう。

データ・ラングリング(データの加工)

データラングリングとは、データの加工や整形などを含めた、データを分析するための前処理とも言うものですが、多くのデータ分析の実に80%の時間はここで費やされます。

Exploratoryでは、この作業を切り離したものとしてではなく、むしろデータの可視化や統計・機械学習のアルゴリズムを使った分析の一環として、シンプルですばやく、さらに再現可能な形で行える環境を提供しています。

Exploratoryには、データラングリング用にさまざまなデータの問題を解決するための数多くの手法が用意されていますが、このチュートリアルでは以下の3つのタスクを簡単に見てみましょう。

  • 文字データを日付データに変換する
  • 一つの列を複数の列に分ける
  • NA(欠損値)のデータを削除する

文字データを日付データに変換する

サマリ・ビューでFL_DATEの列を見ると、日付データが含まれているようですが、データのタイプはcharacter(文字型)となっています。

このままでは、チャートを使って可視化するときにそれぞれの日付が文字列、つまりカテゴリデータとして扱われてしまいます。

ここでは、このデータを時系列データとして扱いたいので、もとのCharacter(文字)型からDate(日付)型への変換を行います。

Exploratoryは、データのインポート時に元データから推測し、各列のデータ型を自動的に登録します。しかし、元データの持ち方によってはデータ型が正しく登録されていないことがあります。その場合は、これから行うように、インポート後にデータラングリングの一環としてデータ型を柔軟に変換することができます。

まずはFL_DATE列を選び、列ヘッダーメニューから

「データタイプを変換」->「日付/時間に変換」->「Year, Month, Day」

を選択します。

今回は、もとのデータが年(Year)、月(Month)、日(Day)の順序で入力されていました。(例:2016 Sep. 29, etc.)

上記のメニューで、”Year, Month, Day”を選択したのはそのためです。

上記のメニューを選ぶと、「計算の作成」ダイアログが開きます。

計算エディタの中には、ymdという関数が以下のようにすでに入った状態になっているはずです。

ymd(FL_DATE)

この ymdという関数は、日付に関する処理をするためのRの関数の1つで、もとのデータが年(Year)、月(Month)、日(Day)の順で入っていると仮定して、日付型(date)に適切に変換してくれます。

ちなみに、ここで重要なのは日付コンポーネントの順序だけです。例えば月名がフルネーム(August)であっても、短縮名(Aug)であっても、数字(8)であっても、問題ありません。また、途中にどんな文字が入っていても問題ありません。

以下のような文字列はどれも、今回のymd関数でうまく変換できます。

2016 Sep. 29

2016 Septempber 29

2016/Septempber/29

2016-9-29

year 2016, on Septempber 29th

2016年9月29日

ここで気にしなくてはいけないのは、順番だけなのです。シンプルですね!

この関数の詳細を知りたい場合は、カーソルが関数のカッコの中に入っている状態で、「関数のドキュメントを表示(または非表示)」ボタンをクリックするとそのドキュメント情報が表示されます。

また、「関数一覧」ボタンをクリックすると、他の利用可能なRの関数の一覧が表示されます。

日本語のPC環境の場合

ところで、みなさんのPCの環境は日本語環境になっている場合がほとんどだと思います。その場合は、上記のymdという関数をそのまま流すとデータの中にある“Sep”という文字列がちゃんと読み取れないことがあります。その場合は、ymdの関数にロケールの引数を以下のように指定してください。

Macの場合

ymd(FL_DATE, locale="en_US")

Windowsの場合

ymd(FL_DATE, locale="English_United States")

これで、PCの言語環境の設定に関わらず、このymdという関数が英語/アメリカのロケールのもとに実行されるようになります。

さきほどの計算の作成のダイアログの中が以下のようになっているのを確認してください。

Mac

Windows

それでは、さっそく「実行」ボタンをクリックして実行してみましょう。

この時点で2つのことに気づくと思います。

1つ目は、右のデータラングリングのステップにMutateというステップが追加されています。

このステップの中で、先程のymd関数が実行され、その結果がFL_DATEという列に代入されているというふうに読むことができます。元の列名もFL_DATEなので、単純に元のFL_DATEという列を上書きしているということになります。

このMutateというのはデータラングリングのための一連のコマンド群の一つで、行ごとの計算処理(もしくは加工処理)を行う時に使います。Excelで一般的にフォーミュラを使うときといっしょだと思っていただければよいかと思います。

他にも SelectSummarizeFilterなどのデータラングリングのためのコマンドがありますが、別の機会に触れます。

ところで、2つ目に気づくのは、FL_DATE列のデータ型がDate(日付)になっているということです。

チャートの部分を見ると時間軸に沿ってデータがどのように分布しているのかがわかります。また、その下の指標の部分を見ると、データの期間は2016-09-01から2016-09-30までであることがわかります。

ここで、右のデータラングリングのステップで、今回のMutateのステップの前、つまり「データソース」のステップをクリックしてみてください。

するとFL_DATEの列がもとに戻っているのが確認できます。

そして、また右のデータラングリングのステップで、今度はMutateのステップをクリックしてみてください。

すると、FL_DATE列がDate型に変換されているのが確認できます。

このようにして、データラングリングのステップの前と後を移動することで、データがどのように変わったのかを簡単に確認することができます。

それではもう一つ、Mutateのオペレーション、つまり行ごとの計算処理を行ってみましょう。

遅れたか、遅れてないかの情報を作る

画面をスクロールダウンすると、ARR_DELAY(到着時の遅れ)という列が見えます。

このデータの単位は分なので、ARR_DELAY(到着時の遅れ)は-152分から1,334分の間で分布していることがわかります。マイナスのデータは遅れたのではなく、逆に予定よりも早く着いたことを意味します。

それでは、この列のデータを使って、それぞれのフライトが実際に遅れたのかどうかを示す列を作りましょう。

ARR_DELAY列の列ヘッダーメニューから、「計算の作成(Mutate)」を選んでください。

出てきたMutateのダイアログで、以下の条件式を入力します。

ARR_DELAY > 0

この式は、それぞれの行のARR_DELAY列の値が0より大きいかどうか評価し、もし大きい場合にはTRUEを、そうでない場合にはFALSEを返します。

入力し終わったら、新しく作られる列のための名前を入れて、「実行」ボタンをクリックします。

前回、FL_DATE列のデータ型を変換したときと同様に、今回も2つのことに注目してみてください。

1つ目は、右のデータラングリングのステップです。

前回作ったMutateのステップにもう一つのトークン(箱のようなもの)が追加されています。この中にさきほどの条件式が書かれているのが確認できます。

そして、2つ目がサマリ・ビューの一番最後に追加されている、is_delayedという新しい列です。

この列のデータ型はLogical(論理型)といってTRUEかFALSEの2つの値しかとらないデータ型となっています。指標の部分を見ると、TRUE、つまり実際に遅れたというフライトの数が、136,361便、全体に対する割合は29.98%であるというのがわかります。

列を複数の列に分ける

サマリの画面をスクロールアップすると、ORIGIN_CITY_NAME(出発した市の名前)という列がみえます。

この列には、米国の都市名と州名が含まれています。チャートの部分を見ると一番フライトが多いのは、Atlanta, GA (アトランタ、ジョージア州)なのがわかります。また、指標の部分を見ると296の都市名がデータの中にあるということもわかります。

ここで、都市ごとではなく、単純にどの州から出発したフライトがもっとも多いのかを見てみたいとします。

しかし、例えば、カリフォルニア(CA)の場合はロサンゼルス、サンフランシスコ、オークランドなどとたくさんの市があるため、現状はそれぞれが別のデータとして別れてしまっています。

そのせいで州ごとにどれだけのフライトがあるのかを単純に比べることができません。

そこで、この列の値を市と州の別々の列に分割してみましょう。

これから行う操作を見やすくするために、まずはテーブル・ビューに移動しましょう。

次に、ORIGIN_CITY_NAME列を選択し、列ヘッダーメニューから「分割」 ->「…で列に分割」 -> 「コンマ(,)」を選択します。

すると「列を分割」ダイアログが開きます。

ここでは、分割された後にできる2つの新しい列の名前を入力します。この場合、「city」と「state」です。

「実行」ボタンをクリックすると、2つの新しい列が作成されます。1つは「city」、もう1つは「state」です。

今回も、右のデータラングリングのステップに注目すると、新しい「Separate to Columns」というステップが追加されているのが確認できます。

もし、もとの列、ORIGIN_CITY_NAMEを残しておきたい場合は、右のステップのトークンをクリックして、もう一度「列の分割」のダイアログを開き

「元の列を除去」というパラメーターの値をFALSEにします。

すると、もとの列と新しくできた列の両方があるのが確認できます。

それでは、データラングリングの最後として、Filterコマンドを使ったデータのフィルタの仕方に触れてみましょう。

欠損値を扱う

サマリビューでARR_DELAY列を見ると、緑色のバーにわずかな赤色が表示されていることがわかります。

この赤いバーは、この列の中にあるNAつまり、欠損値の割合を示しています。ここから、ARR_DELAY列の0.51%が欠損値であることがわかります。

欠損値を扱う方法はいろいろありますが、ここでは単純にFilter(フィルタ)というデータラングリングのコマンドを使ってそれらを削除してみましょう。

ARR_DELAY列の列ヘッダーメニューから「フィルタ」 -> 「欠損値でない」を選択します。

これにより、「欠損値でない」演算子が既に選択されている フィルタのダイアログが開きます。

興味のある場合は、演算子のドロップダウンをクリックすると、選択されている列のデータ型をサポートする演算子のリストが表示されます。

ここで「実行」ボタンをクリックすると、NA(欠損値)が失くなっていることがわかります。

また、今回も同様に、右側のデータラングリングのステップのエリアに注目すると、新しく、「Filter」のステップが追加されているのがわかります。

データラングリング・ステップの移動

ところで、以前にARR_DELAY列の値を使って、is_delayedというフライトが実際に遅れたかどうかという情報を持つ列を作りました。その時点では、ARR_DELAYの列にはNA(欠損値)があったのですが、実はそれらのNAは計算のさいには無視されていました。

今回は特にそれでも問題はないのですが、先程行ったFilterでNAを取り除くような処理は、Mutateの前に行っていたほうがいい場合もよくあります。

そのような場合には、単純にドラッグ・アンド・ドロップで既存のステップの順番を変えることができます。

順番を変えたならば、その後でMutateのステップをクリックすることで、NAが取り除かれたデータに対して、Mutateのステップの中の計算処理が自動的に実行されることになります。


他にもデータラングリングではさまざまな計算、データの加工を行うことができます。興味のある方は、こちらよりデータラングリングに関するチュートリアルを見てみてください。

それでは、このフライトデータをさらに理解するために、可視化してデータを探索してみましょう。

データの可視化

Exploratoryでは、さまざまな種類のチャートを使用してデータを可視化できますが、この演習では、次のチャートを使用してデータを探索します。

  • ピボットテーブル - 曜日によるフライトの数の違いには州ごとで差があるのかを分析する。
  • 折れ線グラフ - 9月の出発遅延時間の傾向を分析する。
  • 散布図 - 到着遅延と出発遅延時間の間の相関を分析する。

チャートを「ピン」する

ただ、ここで一つチャートを使うにあたって便利な、「ピン」という機能を先に紹介します。

まずはチャート・ビューに移りましょう。

すると、右側のデータラングリングのステップで最後の「4. Separate to Columns」が緑色になっていることを確認してください。

もしかしたら、別のステップが緑色になっているかもしれませんが、その場合でも、ご心配なく次に進んでください。

現在の状態は、これから作るチャートがこのステップに「ピン」されているということを意味します。

ある特定のステップに「ピン」をすると、例えどのステップが現在選ばれていたとしても、このチャートはいつもこの「ピン」されたステップのデータを表示するということが保証されます。

例えば、バー・チャート(棒グラフ)を表示していた時に、チャートが以下のように、データラングリングの「2. Filter」のステップに「ピン」されていたとします。

すると、チャートはいつもこのステップの結果を表示します。

ここで、別のステップを選んだとしても、結果はまったくかわりません。いつも「2. Filter」のステップのデータを表示します。

ただこの場合、左側で列をアサインしようとした場合、ドロップダウンの中にis_delayed、city、stateといった先ほどデータラングリングをして作ったような列がありません。また、ドロップダウンの中にあるFL_Date という列もアイコンを見るとCharacter型のままです。

これは、現在「ピン」されているステップ(2. Filter)の時点では、まだCharacter型からDate型への変換(3. Mutate)や、ORIGIN_CITY_NAME列の分割(4. Separate to Columns)などの処理が行われていないからです。

「ピン」するステップを移動する

それでは、逆に現在見ているチャート、もしくはこれから作るチャートに、最後の「4. Separate to Columns」のステップのデータを表示してほしいときはどうすればいいでしょうか。

その場合は、「ピン」を「4. Separate to Columns」のステップに移すことになりますが、単純に「ピン」ボタンをクリックすることで「ピン」を外すか、

または「ピン」ボタンをドラッグして、「4. Separate to Columns」にドロップすることで、「ピン」するステップを移動することが簡単にできます。


それでは、次のピボットテーブルを使った演習に入る前に、最後の「4. Separate to Columns」のステップが「ピン」されているのを確認してください。

ピボットテーブルと合計の割合

ピボットテーブルを使用して、まずはそれぞれの州ごとのフライトの数の合計を表示してみましょう。

ピボットテーブルが選択されているのを確認し、行に 「state」列を、列に 「FL_DATE」列を割り当てます。 値はデフォルトが「行の数」なのでそのままにしておきます。各グループの行数をカウントします。

列に割り当てられている「FL_DATE」はDate型なので、さまざまな集計レベルに調整できます。ここで、さきほどのデータラングリングで、FL_DATEの列をCharacter(文字)型からDate(日付)型に変換したのが活きてきます。

デフォルでは年で丸められています。このデータは2016年の9月のデータなので、2016年一年ぶんだけ、つまり1列だけとなっています。

年のかわりに、週で丸めてみましょう。

こちらより、「週で切り捨て」を選んでください。

すると、週ごとのフライトの数がそれぞれの州ごとに計算されているのが確認できます。

また、丸めるだけではなく、曜日など、日付データの一部を取り出すこともできます。ここでは、曜日を取り出してみましょう。

メニューから、「曜日」を選択します。

すると、列が曜日ごとになっているのが確認できます。

色で分割

さらに、「色」を使うことでデータをより見やすくすることができます。

「色で分割」のドロップダウンから「全体」を選択します。

カリフォルニア(CA)が他に比べてフライトの数が多く、さらにその中でも木曜(Thu)、金曜(Fri)が特に多いというのが、色を見るだけでわかります。

さまざまな色のパレットがあるので、別のものに切り替えてみましょう。

「色で分割」の横にある、「ネジ」のかたちをしたアイコンをクリックし、「カラーパレット」から「Yellow-Orange-Red」というパレットを選んでみてください。

表計算 - 割合 (% of)

現在見えている数値は行の数ですが、かわりに割合を見たい場合は、「表計算」の機能を使うことができます。

「値」の横にある「メニュー」アイコンをクリックし、「表計算」を選択します。

表計算のダイアログの中で、「計算のタイプ」に「割合(% of)」を選びます。

デフォルトでは、「値の集計方法」に「合計値」が選ばれているのを確認します。これにより、「合計の割合 (% of Total)」の計算を行うことになります。

また、「方向」がデフォルトでは「全体」となっていますが、これにより「全体の合計の割合」が計算されることになります。

しかし、場合によって、行ごとの割合、または列ごとの割合を見たい場合もあるかもしれません。この場合ですと各州ごとの割合、または各曜日ごとの割合ということになります。その場合は、この「方向」を「行」や「列」に設定することができます。

ここでは「方向」の設定を「行」に変更し、どの曜日により多くの便があるのかを見てみましょう。

ほとんどの州では、月曜日から水曜日までに便が集中しています。土曜日はほとんどの州にとって割合が最低です。

「Sat」列のヘッダーをクリックして、土曜日の値でデータをソートしてみましょう。

VI(米領バージン諸島)やPR(プエルトリコ)は、土曜日にも多くのフライトの便が運航しているということがわかります。これはおそらく、多くの観光客が休暇のためにこうした地域に土曜に行くからではないでしょうか。

時系列データの可視化

それでは次に、ライン・チャートを使ってフライトの数、そして到着の遅れ時間のトレンドを見てみましょう。

チャートのタブの左端にあるプラスボタンをクリックして、新しいチャートを作ります。

チャートのタイプに「ライン」を選択し、「FL_DATE」列をX軸に割り当てます。

「FL_DATE」列は日付データ型なので、データの集計レベル(年、月、日など)を選択できます。今回は「日に切り捨て」を選んで「日」ごとのトレンドを見てみましょう。

Y軸はデフォルトでは、行の数です。つまり現段階では、フライトの数が2016年の9月の間にどのように推移したかがこのチャートからわかります。

次に、Y軸に「ARR_DELAY」列を割り当て、フライトの到着時間の遅れのトレンドを見てみましょう。

デフォルトではデータの集計タイプが 「合計」に設定されていますが、これを 「平均」に変えることで、フライトの到着時間の遅れの平均のトレンドを見れるようにしましょう。

この到着時間の遅れの平均は全ての航空会社のフライトの平均です。それぞれの会社ごとの平均はどうでしょうか?

「色で分割」に「CARRIER」列を割り当てることで、各航空会社の平均のトレンドをそれぞれの別の線として表現することができます。

凡例の任意の値をクリックすると、チャート内の線を表示または非表示にすることができます。

また、凡例の任意の値をダブル・クリックすることでそれに対応するライン(線)だけを表示することもできます。

もう一度、同じ値をダブル・クリックすると、もとにもどります。

ドラッグして、ズームする領域を選択することもできます。

チャートの白いエリアのどこでもいいのでダブルクリックすると、もとのズームレベルにもどります。

2つの数値データの相関関係を散布図を使って可視化する

これまでは到着時間の遅れに注目してきましたが、このデータの中には出発時間の遅れを表す「DEP_DELAY」という列があります。

ここで、質問です。

到着時間の遅れと出発時間の遅れには相関関係があるのでしょうか?

言い換えれば、出発時間に遅れたフライトは到着時間にも、やはり遅れるのでしょうか?

ここでは、「散布図」というチャートタイプを使ってこの2つの数値の列の関係を可視化してみましょう。

また、チャートのタブの左端にあるプラスボタンをクリックして、新しいチャートを作ります。

チャートタイプとして 「散布図」を選択し、X軸に 「DEP_DELAY」、Y軸に 「ARR_DELAY」を割り当てます。

2つの数値情報の間には、ある程度の相関関係があるようです。

確かめるために、トレンドラインを表示してみましょう。

Y軸のアクションメニューから、「トレンドライン」を選びます。

タイプに「線形回帰」を選びます。

これは、裏で「線形回帰」の予測モデルを「ARR_DELAY」と「DEP_DELAY」の列をもとに作り、予測結果を直線のラインとして描いています。この直線のラインはすべての点からの距離が一番小さくなるように描かれています。

ライン(線)の上にマウスを持っていくとポップアップの中にいくつかの指標が見えます。

この中のCorrelationというのが「相関」の係数です。この数字が1に近ければ近いほど「強い正の相関」があるということになります。逆に−1に近いと「強い負の相関」があるということになります。

さらにCoefficientというのがこの線の傾きになります。これは、出発時間の遅れ(DEP_DELAY)が1分増えると、到着時間の遅れ(ARR_DELAY)も1分ほど増えるということを意味します。

それでは、こうした相関関係はどの航空会社でも同じように見られる傾向なのでしょうか。確認してみましょう。

「CARRIER」列を「繰り返し」に割り当てることで、各航空会社ごとの散布図が表示されます。

「繰り返し」プロパティを調整して、すべてのグラフをより見やすく表示できます。ここでは、各行のチャート数を「4」に設定し、「全チャートを画面内に収める」をオン、「チャート間でX軸を同期する」と「チャート間でY軸を同期する」をオフにしてみましょう。

どの航空会社でも、出発時間の遅れと到着時間の遅れには相関関係が見られますが、トレンドラインの線の上に出てくるCorrelationの指標を見ると、その強さには若干違いがあるのがわかります。

ここまでに作られたチャートはExploratoryクラウドにパブリッシュすることで、簡単に他の人と共有、ウェブサイトに埋め込む、またはスラックなどに送信することができます。興味のある方は、こちらのガイドをご参照ください。

  • Introducing Interactive Chart Sharing and Embedding - Link

データの中にあるパターンやトレンドを分析するために、チャートを使ってデータを可視化するのは役立ちます。しかし、可視化には限界があります。データが増えてくると人間の目ではそうしたパターンを確認するのが難しくなってきたり、また、確認できたとしてもそれがどれだけ信頼に足るものなのかというのが判断しにくい場合があります。

こうした場合には、統計や機械学習のアルゴリズムを使うのが役立ちます。次のセクションでは機械学習のアルゴリズムを使って、さらにフライトのデータを分析してみましょう。

機械学習のアルゴリズムを使う

このデータの中には到着時間の遅れ(ARR_DELAY)、出発時間の遅れ( DEP_DELAY)、フライト・ナンバー(FL_NUM)、飛行距離(DISTANCE)といった変数(列)がありますが、どの情報が航空会社(CARRIER)を特徴付けているのでしょうか?

別の言い方をすれば、航空会社(CARRIER)の情報がなかったとしても、他の情報からそれぞれのフライトがどの航空会社のものであるのか、予測できるでしょうか?

こうした質問に答えるには、機械学習や統計のアルゴリズムを使うのが便利ですが、Exploratoryでは、アナリティクス・ビューよりそうしたアルゴリズムに簡単にアクセスすることができます。

ここでは、ランダム・フォレストという機械学習のアルゴリズムを使って、どの変数(列)が予測に役立つのかを探索してみましょう。

変数重要度(ランダム・フォレスト)を使う

まずは、上のメニューにあるアナリティクスをクリックして、アナリティクス・ビューに行きましょう。

アナリティクス・タイプのリストから「変数重要度(ランダム・フォレスト)」を選びます。

次に目的変数に「CARRIER」の列を選びます。

予測変数のボタンをクリックして、列を選択するダイアログを開きます。

最初の列である「FL_DATE」をクリックして選択し、さらにShiftキーを押しながら一番最後の列である「is_delayed」をクリックすることで、全ての列を選んでください。

ここで、以下のいくつかの意味のない列を除きます。

  • 「ORIGIN_CITY_NAME」はデータラングリングをした時に、すでに「city」と「state」に分割しているので、必要ありません。
  • 「is_delayed」は「ARR_DELAY」から作った列なので必要ありません。
  • 「AIR_TIME(飛行時間)」と「DISTANCE(飛行距離)」は同じような情報なので、「AIR_TIME」は必要ありません。

ここではこの3つの列をクリックすることで外しましょう。

「OK」ボタンをクリックしてこのダイアログを閉じた後で、「実行」ボタンをクリックして、このアナリティクスを流します。

実行が終わると、航空会社(CARRIER)を予測、または特徴づけるのに役立つという点で、それぞれの変数(列)の重要度を表すチャートが表示されます。

このバー・チャートから、FL_NUM(フライト・ナンバー)が航空会社を特徴付ける、または予測するのにもっとも役に立つ変数であることが分かります。

さらに、「予測影響度」をクリックすることで、FL_NUM(フライト・ナンバー)の値とCARRIER(航空会社)の関係が見えます。


Exploratoryでは、これまでのデータ分析の結果を他の人に伝えるために、ノート、スライド、もしくはダッシュボードを使うことができます。

次のセクションでは、これまでに作ったチャートをダッシュボードに登録し、再現可能な形で他の人と共有してみましょう。

もし、ノートやスライドに興味のある方は、こちらのリンクより詳細を御覧ください。

  • Exploratory ノートの紹介 - Link
  • Exploratory スライドの紹介 - Link

ダッシュボードを作って、共有する

まずは、先程作ったチャートの画面にもどりましょう。

このチャートをダッシュボードに入れたい場合は、先にダッシュボードを作って、ダッシュボードの編集の画面からこのチャートを選んで追加してもいいのですが、もっとシンプルなのは、「ダッシュボードに追加」というチャートの右上にあるボタンを押す方法です。

出てきたダイアログの中で、「新しいダッシュボードに追加する」をクリックします。

すると、「Dashboard 1」という名前のダッシュボードが作られそこにこのチャートが追加されました。

ここで、「開く」をクリックすると、直接ダッシュボードのエディタを開くことができます。

現段階ではチャートが一つだけ入っていますが、もう一つ、以前に作ったピボットテーブルを入れてみましょう。

ここでは、すでに入っているチャートの右側にピボットテーブルを表示したいので、右側にある緑のプラス・ボタンをクリックします。

すると、チャートの選択ダイアログが開きます。ここでは、先程のチャートやピボットテーブルを作ったデータフレームの名前を選びます。

そして、例のピボットテーブルを選び、「OK」ボタンをクリックします。

2つのチャート・アイテム(正確にはラインチャートとピボットテーブル)が入っているのが確認できます。

それぞれのチャートが入るセクションのタイトルを入力することができます。

それでは、一通りダッシュボードの編集の方ができたので、「実行」ボタンを押してダッシュボードを実行してみましょう。

以下のようなダッシュボードのページが表示されていると思います。

このダッシュボードをExploratoryクラウドにパブリッシュして、他の人と共有、またはスケジュールすることができますが、その方法を次のセクションで見てみましょう。

ダッシュボードをパブリッシュする

右上の「パブリッシュ」ボタンをクリックして、ダッシュボードをパブリッシュすることができます。

「タイトル」や「概要」などに適した情報を入力し、右下の「パブリッシュ」ボタンをクリックすると、ダッシュボードがExploratoryクラウドの方にパブリッシュされます。

パブリッシュする時に、「プライベート」モードか「パブリック」モードでパブリッシュするかを選択することができます。「プライベート」モードの場合は、パブリッシュした後に、クラウドのUIの方で、誰と共有するかの設定をすることができます。

パプリッシュが成功すると一意のURLが割り当てられます。「ブラウザで表示」のリンクをクリックすると、Exploratoryクラウドにパブリッシュされたダッシュボードを直接開くことができます。

クラウド側のダッシュボードのページの右上の「Share」ボタンをクリックすると共有の設定のためのダイアログが開きます。

こちらから、共有したい人のメールアドレスを入れることでその人に通知のメールが届きます。

また、特定のユーザーではなく不特定多数の人たちと共有したい場合は、「URL Link」の「Enable」というボタンを押すことで、このダッシュボード用に特別なURLが生成されますので、こちらを使って共有することもできます。

スケジュール

今回ここで作ったダッシュボードはローカルのPCに保存されていたCSVのデータをもとに作られています。しかし、もしリモートのデータ、例えば、データベース、クラウドのApp (e.g. Google Analytics, MailChimp, etc.)、リモートのCSVなどのテキストファイル、ウェブスクレイピングなどのデータをもとにダッシュボードが作られている場合は、右上の「Share」ボタンの横に「Schedule」というボタンが出てきます。

こちらからスケジュールの設定を行うことで、定期的にデータをアップデートすることができます。

この他にも、ダッシュボードを使ってさまざまなことができます。興味のある方はこちらをご覧ください。

  • Exploratoryダッシュボードの紹介 - Link

このチュートリアルはこれで以上です!

どうもお疲れ様でした!


質問や相談したいことなどありましたら、お気軽に、チャット・ウィンドウやe-mail(support@exploratory.io)よりご連絡ください!