アナリティクスの「マーケット・バスケット」分析を紹介します。
マーケット・バスケット分析を行うと、一緒に購買されやすい商品の組み合わせを分析でき、例えば 「おむつを買った人はビールを買う傾向がある」といったことが分かります。
マーケット・バスケット分析には、1行が1つのバスケット(買い物カゴ)の中にある1つの商品を表すデータが必要です。
また、バスケットに含まれていた商品の列に加えて、その商品がどのバスケットに含まれていたかを識別するための列(例: 注文番号、決済番号)も必要です。
今回はサンプルデータとして、とあるオンラインスーパーの買い物カゴのデータを使用します。
アナリティクス・ビューを開き、タイプに「マーケット・バスケット分析」を選択します。
「アイテム」にはカゴの中身を表す「商品」を選択し、「バスケット」にはバスケットを識別する列の「注文番号」を選択します。
列を指定して実行すると、マーケット・バスケット分析の結果が表示されます。
グラフ・タブで表示されるテキストは商品名、丸は1つのルールを表します。
右上のルールに注目すると、Whiskey(ウィスキー)からルールに矢印が伸びていて、ルールからBeer(Bottle)(瓶ビール)に矢印が伸びています。
これは「ウィスキーが買われると、瓶ビールが一緒に買われる傾向がある」というルールです。
なお、ルールに複数の線が延びている場合、一緒に買われることを表します。従って、左にあるルールは「Butter(バター)とPork(豚肉)の両方が買われると、Milk(牛乳)が一緒に買われる傾向がある」と解釈できます。
ルールの大きさは、「Support(支持度)」の相対的な大きさを表しています。Support(支持度)は、全てのバスケットのうち、どの程度の割合でそのルールを確認できるか、言い換えれば、そのルールの出現確率です。
そのため一番大きいルールが購買数の一番多い組み合わせです。
ルールの色は「Confidence(確信度)」の相対的な大きさを表しています。また、Confidence(確信度)は一緒に購買される関係の強さを表します。
例えば、一番色が濃い赤いルールに注目すると「ウィスキーと赤ワインが一緒に購入されると、瓶ビールが一緒に買われやすい強い関係がある」ことが分かります。
データ・タブで表示されるテーブルは、一行が一つのルールを表しています。
「アイテムリスト」が前提で「共に購入されるアイテム」が結果となるため、一行目は「ビンビールと赤ワインを購入したとき」に「ウィスキーが購入される」というルールです。
データ・タブでは、支持度や確信度だけに加えて「リフト」も確認できます。
リフトは、「アイテムリスト」に表示される前提があることで、「共に購入される」商品が購入される確率が、「アイテムリスト」に表示される前提がなかったときと比べて、どれだけ上がったかを表した指標です。
リフトが1以下であれば、前提があることで共に購入される商品が購入される確率は増えないため、取るに足らないルールと言えます。
マーケット・バスケット分析について、よくある質問とその答えをこちらにまとめました。
リフトはある商品の単体での購買率よりも、共に購入される商品によって購買率が上がるのか(または下がるのか)を表す指標です。リフトは1より大きければ、とある商品がカゴに入っていることによって、もう片方の商品が買われる確率が上がることになります。
例えば、ワイン単体での購買される確率は全体のうち25%だが、肉と一緒にワインを購買される確率は33%だったとします。リフトを計算すると33% / 25%でリフトは1.32になるということです。
マーケット・バスケット分析を実行した際に、表示されるルールが少なくなってしまうことがあります。
これが起きる原因としては、行数が多く、たくさんのアイテム(例:商品など)があったときに、それぞれの組み合わせの件数が全体の件数に占める割合(このことを支持度という)が低い時に起きることが多いです。
Exploratoryでは、マーケット・バスケット分析でのルールを表示する際に、この支持度を基準として表示をしていますが、デフォルトでは「自動で探索」となっています。
この支持度の基準値を変えることで、表示するルールの数を増やすことができます。プロパティから支持度の最小値の選択方法に「値を指定」を選び、支持度の最小値に対して任意の値を指定します。この支持度の最小値は、値を低くすればするほど表示するルールの数が増えます。
適用することで、表示されるルールの数が増えたことが確認できます。