マーケット・バスケット分析用のデータを作成する方法

このノートでは、手元のデータがマーケット・バスケット分析に適した形式でない場合に、マーケット・バスケット分析用のデータに変換する方法を紹介します。

マーケット・バスケット分析とは

マーケット・バスケット分析は、複数のアイテムの間に「一緒に選ばれやすい」関係性を発見するための手法です。

もともとは小売業において「一緒に購入されることの多い商品の組み合わせ」を分析するために広く活用されてきました。たとえば「おむつを買う人はビールも一緒に買う傾向がある」といった関連性を明らかにすることができます。

  • マーケット・バスケット分析の紹介 - リンク

ただし、マーケット・バスケット分析の用途はEコマースや小売に限りません。複数回答のアンケートデータに対して「一緒に回答されやすい選択肢の組み合わせ」を把握するといった分析にも応用できます。選択肢同士の共起傾向を捉えたい場面であれば、業種や用途を問わず幅広く活用できる手法です。

マーケット・バスケット分析用のデータフォーマット

Exploratoryでマーケット・バスケット分析を実行するには、「1行が1つの注文(バスケット)における1つの商品を表す」形式のデータが必要です。

これは、いわゆる注文明細や支払明細のような形式に相当します。

通常の注文データや売上データは、すでにこの形式になっていることが多いため、そのままマーケット・バスケット分析にかけることができます。

複数回答のアンケートデータで、1つのセルに複数回答の値が保存されている場合

例えば、1行が1人の回答者を表すアンケートデータがあったとします。

このようなアンケートデータでは、複数回答の設問において、1つのセルに任意の区切り文字を使って、複数の回答がまとめて格納されているケースがあります。

このような形式のままではマーケット・バスケット分析を実行できないため、データを「1行1回答」の形式に変換する必要があります。

上記のようなデータが手元にある場合は、「サービスの改善点」の列ヘッダーメニューから 「分割」の「…行で分割」 を選択します。

今回は区切り文字として「コンマ(,) 」を指定します。

行に分割のダイアログが開いたら、実行ボタンをクリックします。

これで各回答が1行のデータとして展開され、マーケット・バスケット分析に適した形式に変換されます。

変換後のデータでは、「回答者ID」をバスケット、「サービスの改善点」をアイテムの情報として指定することで、マーケット・バスケット分析を実行できます。

複数回答のアンケートデータで、1つの列が1つの回答を表す場合

例えば、1行が1人の回答者を表すアンケートデータがあったとします。

このようなアンケートデータでは、複数回答の設問において、1つの列が1つの回答を選択しているかどうかを表し、1の場合には選択、0の場合には非選択を表すようなケースもあります。

例えば以下の画像でハイライトしている列は、とあるサービスの「改善して欲しい点」の回答状況を表しています。

このような形式のままではマーケット・バスケット分析を実行できないため、データを「1行1回答」の形式に変換する必要があります。

上記のようなデータが手元にある場合は、対象の回答列を選択して、任意の列ヘッダーメニューから「ワイド型からロング型へ」の「選択された列」を選択します。

ワイド型からロング型へのダイアログが開いたら、キー列には「選択肢」、値の列には「回答状況」と入力し実行します。

これで1行が1つの選択肢に対する回答状況を表すデータに変換できました。

ただし、現在のデータでは1行がそれぞれの回答状況を表しており、実際に回答者が選択した回答のデータにはなっていません。

そこで、回答状況の値が「1」のみのデータにフィルタして、1行が1人の1つの回答を表すデータに変換します。

回答状況の列ヘッダーメニューから、「フィルタ」、「等しい」を選択します。

値に1と入力して実行します。

これで各回答が1行のデータとして展開され、マーケット・バスケット分析に適した形式に変換されます。

変換後のデータでは、「回答者ID」をバスケット、「選択肢」をアイテムの情報として指定することで、マーケット・バスケット分析を実行できます。

Export Chart Image
Output Format
PNG SVG
Background
Set background transparent
Size
Width (Pixel)
Height (Pixel)
Pixel Ratio