集計と結合の順序をどう決める?データ加工のベストプラクティス

データ加工では、データを結合したり集計したりする場面がよくあります。

例えば、以下のように2つデータが手元にあるケースを例に考えてみます。

ユニコーン企業のデータ

1行が1つのユニコーン(評価額が10億ドル以上で非上場のスタートアップ)企業を表し、列には国名や業種、設立年などの情報が含まれます。

国ごとのGDPや人口のデータ

1行が1つの国を表し、列には、その国のGDPや人口などの国単位の統計情報が含まれます。

この2つのデータを使って、最終的に「1行が1つの国を表し、列には、ユニコーン企業数やGDP、人口などの情報が並ぶ」データを作成したいとします。

2つのアプローチ

このような場合、データの加工手順には大きく分けて2つのアプローチがあります。

  1. 先に結合してから集計する:ユニコーン企業データと国別データを結合し、その後に国ごとの企業数や統計値を集計する方法。
  2. 先に集計してから結合する:ユニコーン企業データを国ごとに集計し、その結果にGDPや人口といった国単位の情報を結合する方法。

今回のようなケースでは、後者(集計してから結合する方法) が適しています。

その理由は、先に結合をしてしまうと、人口やGDPといった国ごとの情報が企業ごとに重複して含まれ、そのまま集計すると余計な集計作業が必要になるためです。

Exploratoryなら処理の「順序」や「内容」は後から変えられる

適切な手順としては「集計してから結合」が望ましいですが、初めから手順にこだわり過ぎる必要はありません。

なぜなら、ExploratoryではExcelのように作業を一からやり直す必要がなく、処理ステップの入れ替えや条件の変更によって順序の内容を柔軟に変えられるからです。

例えば、誤って先に結合してしまっても、後からステップの順序を入れ替えて集計を先に持ってくることが可能です。

また、仮に追加したステップに問題があったとしても、後から該当のステップのトークンをクリックして、データ加工の処理内容を修正できます。

ステップ内のトークンをクリックすると、該当の処理を追加したときと同じダイアログが開きます。

例えば今回のケースでは、結合に利用するキー列が適切ではなかったことで、データがうまく結合できていなかったのですが、結合するキー列を修正できます。

ステップを修正して実行ボタンを改めてクリックすると、ステップの内容が更新され、適切な結果が返るようになります。

このように後から、該当の処理だけを修正・更新することが可能です。

困ったときはチャットで質問する

なお、最適な手順や具体的な加工方法について相談したい場合は、チャットサポートを活用するのがおすすめです。

プロジェクトウィンドウの左下の「質問する」ボタンをクリックすると、チャットウィンドウが表示され、ご質問いただけます。

チャット・ウィドウにご質問をいただきますと、AIによる回答や、Exploratoryのスタッフからのアドバイスを受けることができ、より効率的かつ正確に作業を進められます。

Export Chart Image
Output Format
PNG SVG
Background
Set background transparent
Size
Width (Pixel)
Height (Pixel)
Pixel Ratio