データ加工では、データを結合したり集計したりする場面がよくあります。
例えば、以下のように2つデータが手元にあるケースを例に考えてみます。
ユニコーン企業のデータ
1行が1つのユニコーン(評価額が10億ドル以上で非上場のスタートアップ)企業を表し、列には国名や業種、設立年などの情報が含まれます。
国ごとのGDPや人口のデータ
1行が1つの国を表し、列には、その国のGDPや人口などの国単位の統計情報が含まれます。
この2つのデータを使って、最終的に「1行が1つの国を表し、列には、ユニコーン企業数やGDP、人口などの情報が並ぶ」データを作成したいとします。
このような場合、データの加工手順には大きく分けて2つのアプローチがあります。
今回のようなケースでは、後者(集計してから結合する方法) が適しています。
その理由は、先に結合をしてしまうと、人口やGDPといった国ごとの情報が企業ごとに重複して含まれ、そのまま集計すると余計な集計作業が必要になるためです。
適切な手順としては「集計してから結合」が望ましいですが、初めから手順にこだわり過ぎる必要はありません。
なぜなら、ExploratoryではExcelのように作業を一からやり直す必要がなく、処理ステップの入れ替えや条件の変更によって順序の内容を柔軟に変えられるからです。
例えば、誤って先に結合してしまっても、後からステップの順序を入れ替えて集計を先に持ってくることが可能です。
また、仮に追加したステップに問題があったとしても、後から該当のステップのトークンをクリックして、データ加工の処理内容を修正できます。
ステップ内のトークンをクリックすると、該当の処理を追加したときと同じダイアログが開きます。
例えば今回のケースでは、結合に利用するキー列が適切ではなかったことで、データがうまく結合できていなかったのですが、結合するキー列を修正できます。
ステップを修正して実行ボタンを改めてクリックすると、ステップの内容が更新され、適切な結果が返るようになります。
このように後から、該当の処理だけを修正・更新することが可能です。
なお、最適な手順や具体的な加工方法について相談したい場合は、チャットサポートを活用するのがおすすめです。
プロジェクトウィンドウの左下の「質問する」ボタンをクリックすると、チャットウィンドウが表示され、ご質問いただけます。
チャット・ウィドウにご質問をいただきますと、AIによる回答や、Exploratoryのスタッフからのアドバイスを受けることができ、より効率的かつ正確に作業を進められます。