大規模なデータセットを扱う際、パフォーマンスの問題を解決するためにデータのサンプリングが必要となることがあります。
今回は、Exploratoryを使用して元のデータの比率を保持したまま層化抽出(相加抽出)を行う方法について説明します。
この手法により、元のデータセットの特性を維持しながら、より小さなデータセットを作成することができます。
今回はサンプルデータとしてECサイトの注文データを使用します。
グループ化の設定
ステップメニューから「ステップを追加」を選び、「グループ化」を選択します。
グループ化する列(例:国、顧客セグメント)を指定します。
複数の列でグループ化を行いたい場合は、グループ化したステップでの「新規追加」から行います。
サンプル抽出の設定
ステップメニューから「ステップを追加」を選び、「サンプルを抽出」の「割合」を選択します。
サンプル・サイズを指定します。例えば、0.4の場合は40%のデータをサンプル(残す)することとなります。
これにより、各グループ(国、顧客セグメントなど)の比率が元のデータと同じでありつつも、データをサンプルできました。
サンプルをする前は顧客セグメントの「コンシューマー」の比率は「51.7%」となっていました。
サンプル後も顧客セグメントの「コンシューマー」の比率は「51.71%」とほぼ同じ比率になっていることがわかります。
グループ化の解除
サンプリング完了後、「グループ済」と表示されているボタンから「グループの解除」を選択します。
これにより、後続の処理が通常通り実行できるようになります。