Exploratory アワー #512 - 元のデータの比率を保持したままデータをサンプル(層化抽出)したい

大規模なデータセットを扱う際、パフォーマンスの問題を解決するためにデータのサンプリングが必要となることがあります。

今回は、Exploratoryを使用して元のデータの比率を保持したまま層化抽出(相加抽出)を行う方法について説明します。

この手法により、元のデータセットの特性を維持しながら、より小さなデータセットを作成することができます。

問題

解決方法

今回はサンプルデータとしてECサイトの注文データを使用します。

グループ化の設定

ステップメニューから「ステップを追加」を選び、「グループ化」を選択します。

グループ化する列(例:国、顧客セグメント)を指定します。

複数の列でグループ化を行いたい場合は、グループ化したステップでの「新規追加」から行います。

サンプル抽出の設定

ステップメニューから「ステップを追加」を選び、「サンプルを抽出」の「割合」を選択します。

サンプル・サイズを指定します。例えば、0.4の場合は40%のデータをサンプル(残す)することとなります。

これにより、各グループ(国、顧客セグメントなど)の比率が元のデータと同じでありつつも、データをサンプルできました。

サンプルをする前は顧客セグメントの「コンシューマー」の比率は「51.7%」となっていました。

サンプル後も顧客セグメントの「コンシューマー」の比率は「51.71%」とほぼ同じ比率になっていることがわかります。

グループ化の解除

サンプリング完了後、「グループ済」と表示されているボタンから「グループの解除」を選択します。

これにより、後続の処理が通常通り実行できるようになります。

ビデオ

参考情報

Export Chart Image
Output Format
PNG SVG
Background
Set background transparent
Size
Width (Pixel)
Height (Pixel)
Pixel Ratio