Exploratoryでは、データラングリング(データの加工)をした記録を「ステップ」として残すことができます。今回はこのステップについて紹介します。
サンプルデータとして、こちらのフライト遅延データを使用しています。
Exploratoryの画面の右側に表示されている、データラングリングの記録のことを「ステップ」と言います。
このステップのなかにあるそれぞれの処理を「トークン」と言います。
そして、どのステップを選択しているかによってデータフレームにあるデータ自体を柔軟に変えることができます。
例えば、現在ステップ5を選択しているんですが、“FL_DATE_DEP_TIME”という列のデータタイプはキャラクター型になっています。
しかし、この“FL_DATE_DEP_TIME”という列は日付時間型のデータです。
次のステップ6を選択すると、データタイプを日付時間型(POSIXct) に変換しているので、データフレーム自体も変わっていることがわかります。
もしステップの順番を変えたい時はドラッグ&ドロップで任意の場所に移動させることができます。
例えば、ステップ2にて航空会社のデータにフィルタをしてハワイアン航空とユナイテッド航空にしているとします。
しかし、他の航空会社のデータも見て比較したいとします。
そういった場合にはフィルタのステップを「無効化」することで、全て航空会社のデータをすぐに見ることができます。
無効化したいステップで「ステップを無効化」をクリックします。
ステップを無効化し、全ての航空会社のデータを見ることができました。
もし、ステップの無効化を解除したい場合は、「ステップを有効化」をクリックすることで、元の状態に戻すことができます。
先ほどは9月のデータを使用していましたが10月のデータを入手できたとします。
10月のデータにも同様の処理を行いたいといったときに、「ステップをコピー」して、他のデータフレームやブランチに「貼り付ける」ことで簡単にできます。
Mac、Windowsは「Shift」キーを押しながらステップを選択し、「ステップをコピー」を選択します。
コピーが完了したら、ステップを貼り付けたいデータフレームに移動します。
ステップメニューから「ステップを貼り付け」を選択します。
これにより他のデータフレームにもステップを適用することができました。
例えば、データを加工している時に、下記の図のようにエラーが起こることがあります。
ステップ内のどのトークンがエラーにつながっているのかを特定したい場合には「ステップを分割」することで、 ステップ内にあるひとつひとつのトークンを一つ一つのステップに分割できるため問題を簡単に特定できます。
ステップメニューから「ステップを分割」を実行します。
ステップ内にあるひとつひとつのトークンを一つ一つのステップに分割することができました。
先ほど分割したステップをもう一度統合したい場合は、ステップを選択して「複数のステップをまとめる」を実行します。
これで複数のステップを統合することができました。
ステップを統合する際の注意点として、異なるタイプのステップどうしを統合することはできません。
例えば、今回の計算を作成(Mutate)と計算を作成(Mutate)のような同じタイプのステップは統合できます。
しかし、フィルタと計算を作成(Mutate)のように異なるタイプのステップ同士は下記の図のように統合することができないため注意が必要です。