このノートは、データラングリング(データの加工・整形)に関するExploratoryの機能を効率的に手を動かしながら体験していただくために用意された「データラングリング」のトライアルツアーの第4弾、「ラングリングの便利な機能」編です。
Exploratoryでデータラングリングをしていく際に、データの加工の記録がされる「ステップ」機能によって、同じ処理を別のデータフレームに対して実行したり、新しいデータに対して再実行することができます。
そこで、このパートでは、データをラングリングする際に便利な機能を体験していただければと思います。
所要時間は20分ほどとなっています。
それでは、さっそく始めていきましょう!
今回はサンプルデータをプロジェクトとして公開しています。プロジェクトはこちらからダウンロードできます。
データをダウンロードできたら、ダウンロードしたプロジェクトのファイル(.epf)をExploratoryのプロジェクト管理画面にドラッグ&ドロップします。
インポートされた「データラングリング - トライアルツアー Part 4 - プロジェクト」をクリックして開きます。
プロジェクトには「売上データ_2022年」と「売上データ_2023年」の2つのデータフレームがあります。
Exploratoryでは、ステップをコピーして別のデータフレームに対して貼り付けて、同じ処理を別のデータフレームでも実行することができます。
最初に、「売上データ_2022年」のデータフレームを開きます。
「売上データ_2022年」のデータフレームには、いくつかのステップがあることが確認できます。
一方で、「売上データ_2023年」のデータフレームには、インポート時のステップ(ステップ1)しかなく、データの加工の処理は行われていません。
そこで、「売上データ_2022年」にあるステップを「売上データ_2023年」に対しても同じく実行したいとします。
「売上データ_2022年」のデータフレームを開き、Shiftキーを押しながらステップ2からステップ5を選択します。
ステップが複数選択された状態で、「ステップをコピー」のボタンをクリックします。
次に、「売上データ_2023年」のデータフレームを開きます。
ステップのメニューから「ステップを貼り付け」をクリックします。
これによって、「売上データ_2023年」のデータフレームにも、ステップを貼り付けて同じ処理を実行することができています。
このデータフレームは2番目のステップにて「集計」をして、1行1顧客のデータに集計をしています。
しかし、ステップ1に戻ると、元のデータは1行が1注文のデータとなっています。
1行1顧客のデータも使用したいので、メインのデータフレームから派生させた「ブランチデータフレーム」を作りましょう。
1番目のステップから「ブランチを作る」のボタンをクリックします。
ブランチを作るのダイアログが表示されるため、「ブランチ名」を指定して作成ボタンをクリックします。
メインのデータフレームから派生したブランチデータフレームを作ることができました。
今回は1番目のステップから作成したため、他の加工処理(ステップ)は無いデータとなっています。
メインのデータフレームの方に戻ってみます。
このデータには返品しているかどうかを表す列があるため、返品がFALSE(返品されていない)データだけを残したいとします。
ステップ1が選択されている状態で、返品の列から「フィルタ」を選び、「FALSEである」を選択して実行します。
これによって2番目のステップとして返品されていないデータフレームにフィルタするステップが追加されました。
この結果を先ほど作成したブランチデータフレームにも反映させたいとします。
ステップ1にある「ブランチ(1)」と表示される緑のテキストをクリックします。
ブランチのデータフレームを作るステップの位置をフィルタのステップ 2にドラッグ&ドロップします。
これによって、ブランチを作るステップの位置を2番目のステップに変更することができました。
ブランチデータフレームの方を見ると、返品されていない注文のみに絞り込んだステップ2の処理結果が反映されていることが確認できます。
Exploratoryでは、データラングリングのステップによって、同じ処理を更新された新しいデータに対して適用することができます。
例えば、ローカルにあるCSVのデータを使用しているとします。
同じCSVファイルに最新のデータが追加されている場合は、ファイルは変更する必要はありません。
「再インポートボタン」をクリックすると最新のデータを取り込み直すことができます。
これにより、新しいデータに対して既存のステップが全て再実行されます。
もしくは、別のファイルを使用したい場合などもあります。そういった時には、データソースの変更などを使用することで、同じデータフレームでデータソースのみを切り替えることも可能です。
詳細については、下記の資料をご覧ください。
データラングリングのトライアルツアーのテキストデータの加工編は以上となります!
データラングリングのトライアルツアーの他のパートは下記のリンクからご確認いただけます。ぜひ他のパートも実施してみてください。