マーケティング領域におけるExploratoryの活用 Part 7 - Two-Way ANOVA（分散分析）

このノートは、マーケティング領域でExploratoryを効率的に使い始めることができるように作られた「マーケティング領域におけるExploratoryの活用」の第7弾、「Two-Way ANOVA（分散分析）」編です。

データの概要

今回はサンプルデータとして「購買意欲に関する実験データ」を使用します。このデータは、購買意欲に関する実験データで、1行が1被験者になっています。

この実験では被験者を二人一組に分け、「マネージャー」と「作業者」の役割を与えることで被験者に付け権力の強弱をつけ、与えられた役割にもとづき、パズルを解くワークを実施してもらっています。

そして、上記のワーク後に被験者に「嗜好品」と「日用品」における購買意欲に関する質問を行い、それらを数値化した情報を列に持っています。

また実験の際には被験者を2つのグループに分け、片方のグループには自身の回答結果がどのようにプロフィールとしてまとめられるのかのイメージを見せたうえで、実験に取り組んでもらっています。

つまり、この実験では、権力（高・低）、情報の公開レベル（公開・非公開）によって、「嗜好品に対する購買意欲」や「日用品に対する購買意欲」がどのような影響を受けるのかを調べることができるようにデザインされています。

データをインポートする

データはこちらのページからダウンロードできます。Macをお使いの方は「CSV-UTF8」を、Windowsをお使いの方は「CSV - Shift-JIS」をダウンロードしてください。

購買意欲に関する実験データをダウンロードできたら、ダウンロードしたフォルダを開き、「購買意欲に関する実験データ.csv」をExploratoryの画面にドラッグ＆ドロップします。

インポートダイアログが表示されました。

インポートダイアログの左側にある項目から、インポート時の設定を行うことが可能ですが、今回は設定は不要なため「インポート」ボタンをクリックします。

任意のデータフレーム名を指定して、「作成」ボタンをクリックします。

購買意欲に関する実験データをインポートすることができました。

「嗜好品に対する購買意欲」に対する「権力」と「公開レベル」の関係を可視化する

まずは、権力と公開レベルの組み合わせごとに、被験者数、嗜好品に対する購買意欲の平均スコアと平均的なスコアのバラツキである標準偏差を集計していきます。

チャート・ビューに移動して、タイプに「集計テーブル」を選択し、グループ化に「公開レベル」、「権力」を選択します。

続いて値に「（行の数）」、「購買意欲-嗜好品」を選択し、集計関数に「平均値（Mean）」を選択します。

再度、値に「購買意欲-嗜好品」を選択し、集計関数に「標準偏差（SD）」を選択します。

嗜好品の購買意欲のスコアとその標準偏差を集計できましたが、列名が重複しているので、各々の列の集計内容が分かるように列名に関数名を追加します。

プロパティを開き、「値の列」の「関数名を表示する」にチェックをつけ、適用します。

列名が長く関数名を確認できないため、1つ目の「購買意欲-嗜好品」の値のメニューから、「フォーマット」を選択します。

列の幅に「180」とタイプし適用します。

購買意欲の平均値が確認できるようになりました。

続いて、2つ目の「購買意欲-嗜好品」のメニューから、「フォーマット」を選択します。

列の幅に「200」とタイプし、適用します。

購買意欲の標準偏差も確認できるようになりました

これで各グループごと指標の集計ができました。

購買意欲の平均値に注目すると、権力の強弱による嗜好品の購買意欲のスコア差は、公開のステータスのグループの方が大きいことがわかります。

これらの結果を箱ヒゲ図でも確認していきます。

新規チャートの追加ボタンをクリックして、チャートのタイプに「箱ヒゲ図」を選択します。

続いて、X軸に「公開レベル」Y軸に「購買意欲-嗜好品」、色（グループ化）に「権力」を選択します。

公開レベルが非公開の場合、権力の強弱によって、「購買意欲-嗜好品」のバラツキ方が多少変わってくる傾向があるようです。

ここからは Two-Way ANOVA（分散分析）を使って、嗜好品に対する購買意欲のスコアに、権力の強弱や公開レベル、あるいはその両者が掛け合わされることで生み出される効果によって、意味のある違いが生じているのかを調べていきます。

Two-Way ANOVA（分散分析）の前提

ところで、マーケティング領域におけるExploratoryの活用 Part 2の One-Way ANOVA（分散分析）でも紹介しましたが、分散分析は以下の二点を前提としていることを忘れないでください。

目的変数の正規性（正規分布していること）
目的変数の分散の均質性（目的変数が大きくなるにつれて分散が大きくなるような傾向がないこと）

なお、両者を個別に検定することも可能ですが、Exploratoryで分散分析を行った際には両者の検定も自動で行いますので、今回は個別に決定を実施し両者を確かめることは行わず、Two-Way ANOVA（分散分析）を実施していきます。

Two-Way ANOVA（分散分析）を使って「嗜好品に対する購買意欲」に対する「権力」と「公開レベル」の関係の有意性を検定する

それでは実際にTwo-Way ANOVA（分散分析）を実行していきます。

アナリティクスビューに移動して、アナリティクスのタイプに「Two-Way ANOVA（分散分析）」を選択します。

続いて目的変数に「購買意欲-嗜好品」説明変数 1に「権力」、説明変数 2に「公開レベル」を設定し、実行します。

Two-Way Anova（分散分析）を実行することができました。

結果の解釈

サマリ

「サマリ」タブでは、検定の結果が有意かどうかを確認できます。

P値では、「グループ間の平均値には差がないという帰無仮説（前提）を受け入れた場合に、注目している変数から得られた平均値の差が観察される確率」を確認できます。

ところで、変数に注目すると、「説明変数 1」や「説明変数 2」で設定した変数だけでなく、それらを掛け合わせた「権力 * 公開レベル」という変数があることを確認できます。

これは、複数の変数の影響を掛け合わせた変数となり、複数の説明変数が組み合わさったときに生まれる相乗・相殺効果（交互作用）の有意性を確認できるわけです。

なお、P値の意味は情報アイコンをクリックして確認することが可能です。

有意水準を5%とした場合、P値が5%以上であることから、帰無仮説を棄却することができず、「権力」や「公開レベル」に加えて、それらを掛け合わせた「権力*公開レベル」と嗜好品の購買意欲の関係は有意であるとは言えないわけです。

均質性

均質性のタブでは、先程紹介した「分散の等質性」の検定結果の確認が可能です。

デフォルトの設定では、「Brown–Forsythe（ブラウン・フォーサイス）検定」を使って分散の均質性を検定します。

均質性の検定における前提（帰無仮説）は「グループ間の嗜好品に対する購買意欲のスコアの分散は均質である」となり、有意水準を5%とした場合、今回のP値は5%を上回っています。

そのため、帰無仮説は棄却されず、「グループ間の分散は均質と言える」ことになるわけです。

なお、サンプル数が極端に少ない場合を除き、分散の等質性の前提が満たされない状態でTwo-Way Anova（分散分析）を実施しても、その結果に問題がないことも多いため、分散の等質性の前提が満たされない状態でも分散分析の結果を利用することがあります。

正規性

正規性のタブでは、嗜好品に対する購買意欲のスコアが正規分布しているかの検定結果の確認が可能です。

デフォルトの設定では、「Shapiro-Wilk Normality Test （シャピロ-ウィルクの正規性検定）」を使って正規性を検定します。

正規性の検定における前提（帰無仮説）は「嗜好品に対する購買意欲のスコアは正規分布に従う」となり、有意水準を5%とした場合、今回のP値は5%を上回っています。

そのため、帰無仮説は棄却されず、「嗜好品に対する購買意欲のスコアは正規分布に従うと言える」わけです。

なお、サンプル数が極端に少ない場合を除き、正規性の前提が満たされない状態でTwo-Way Anova（分散分析）を実施しても、その結果に問題がないことも多いため、正規性の前提が満たされない状態でも分散分析の結果を利用することがあります。

多重比較（変数）

今回のTwo-Way ANOVA（分散分析）では、「権力や公開レベルによって嗜好品に対する購買意欲のスコアの平均に差はない」という帰無仮説を検定しています。

また説明変数に選択した変数（権力、公開レベル）のカテゴリはいずれも2つでしたが、仮に「権力」のカテゴリ数が3つ（例: 強、中、弱）で、有意な違いが出たとしても、サマリタブからは、どのカテゴリとどのカテゴリの間に有意な差があるといったことまではわかりません。

そういったときには、多重比較（変数）タブから、各変数のカテゴリのペアごとの検定結果を確認することが可能です。

「権力」のカテゴリが3つだった場合、以下のように各変数のペアごとの組み合わせにおける検定結果が表示されるわけです。

多重比較（交互作用）

先程、サマリタブから複数の説明変数が組み合わさったときに生まれる相乗・相殺効果（交互作用）の有意性を確認できることを紹介しました。

しかし、仮に有意な違いが出たとしても、それは平均の比較が可能な「ペア」のうち、少なくとも、1つのペアにおいて有意な差があることのみを表しています。

今回、説明変数に選択した「権力」には2つのカテゴリ（強・弱）があり、「公開レベル」にも2つのカテゴリ（公開・非公開）があるため、両者の組み合わせは全部で4パターンです。

そのため、平均の比較が可能な「ペア」は以下の6つになるわけです。

弱 : 公開と弱 : 非公開
弱 : 公開と強 : 公開
弱 : 公開と強 : 非公開
弱 : 非公開と強 : 非公開
強 : 公開と弱 : 非公開
強 : 公開と強 : 非公開

上記のどのペアにおいて有意差が生じていたかを知りたいときには、多重比較（相互作用）タブを確認します。

デフォルトでは、Tukey's HSD Test（テューキーの範囲検定）を利用し、各ペアを検定します。

このときの前提（帰無仮説）は「各ペアの嗜好品に対する購買意欲の平均値に差はない」となりますが、有意水準を5%とした場合、5%を下回るペアはありません。

そのため今回のデータでは、嗜好品に対する購買意欲に有意な差をもたらす相互作用はないと言えるわけです。

マーケティング・アナリティクス・トレーニング

効果的なマーケティング活動を行うために必要なデータ分析手法を、見込みまたは既存顧客の購買、属性、行動に関するデータを使い、実際に手を動かしながら短期間で効率的に習得していただくためのトレーニングを開催しています。

データドリブンなマーケティング活動を行うために必要なデータサイエンスの手法を短期間で習得したい方は、ぜひこの機会に参加をご検討ください！

詳細を見る