Exploratoryでのデータラングリング(データの加工・整形)の効率性を向上させるために、2つの重要な方法があります。
1つ目はステップの処理順序を整えること、2つ目はステップ名の変更とコメントの追加です。
これらの方法を適切に使用することで、データ処理の流れが明確になり、後から振り返った際や他の人と共有する際に理解しやすくなります。
Exploratoryでは、データラングリングのステップをドラッグ&ドロップで簡単に移動させることができます。以下の手順で、ステップの順序を整理します。
作成したステップから前処理のステップなのか、チャートやアナリティクス、計算のためのステップなのかを識別します。
前処理のステップには、データタイプの変更、不要なデータの削除、列名の変更などのデータをきれいにするための処理が該当します。
次に、前処理のステップを、ステップリストの上部に移動させます。データの結合や変換などのブランチを作成した際にも使用したいステップも、前処理の直後に配置するようにします。
これらのステップの位置を変更する際には、ドラッグ&ドロップで変更が可能です。
分析や質問に答えるための処理(例:集計、計算列の追加、フィルタリングなど)については、前処理ステップの後に配置することで、その後の分析がしやすくなったり、ステップの可読性が向上します。
各ステップの目的や詳細を明確にするために、ステップ名の変更とコメントの追加を行います。
ステップ名の変更やコメントを追加したいステップの吹き出しアイコンをクリックし、「ステップの名前」に、そのステップに対する名前とコメントを入力します。
このように、ステップ名とコメントを適切に設定することで、各処理の目的と内容が一目で理解できるようになります。
また、緑色の吹き出しアイコンによって、コメントが追加されているステップを簡単に識別し、コメントの内容も確認できます。
これらの方法を組み合わせることで、データラングリングの過程が明確になり、長期的なプロジェクト管理や他者との共有が容易になります。
データ処理の各ステップが整理され、適切な説明が付けられることで、複雑なデータ分析のプロセスも管理しやすくなります。