マーケティング領域におけるExploratoryの活用 Part 2 - One-Way ANOVA（分散分析）

このノートは、マーケティング領域でExploratoryを効率的に使い始めることができるように作られた「マーケティング領域におけるExploratoryの活用」の第2弾、「One-Way ANOVA（分散分析）」編です。

データをインポートする

今回はサンプルデータとして「Airbnbのベルギーの宿泊施設」のデータを使用します。このデータは1行が1物件になっており、それぞれの物件に関する価格や広さなどの情報が列として入っています。

データはこちらのページからダウンロードできます。Macをお使いの方は「CSV-UTF8」を、Windowsをお使いの方は「CSV - Shift-JIS」をダウンロードしてください。

Airbnbのデータをダウンロードできたら、ダウンロードしたフォルダを開き、「Airbnbのベルギーの宿泊施設データ.csv」をExploratoryの画面にドラッグ＆ドロップします。

インポートダイアログが表示されました。インポートダイアログの左側にある項目から、インポート時の設定を行うことが可能ですが、今回は設定は不要なため「インポート」ボタンをクリックします。

任意のデータフレーム名を指定して、「作成」ボタンをクリックします。

Airbnbのデータをインポートすることができました。

One-Way ANOVA（分散分析）

前回の第一弾では、2つのグループの平均値に有意な差があるかをt検定を使って調べました。しかし、t検定では3つ以上のグループ間で平均値に有意な差があるかを検定できません。

そこで、ANOVA（Analysis of Variance / 分散分析）を行うことで3つ以上のグループ間の平均値に有意な差があるかを検定することが可能です。

今回は、Entire home/apt（一軒家/アパート一棟貸し）、Private room（個室）、Shared room（相部屋）などの部屋のタイプによって、一泊の価格の平均値に有意な差があるかを、One-Way ANOVA（分散分析）を使って検定していきます。

部屋のタイプごとの一泊の価格の集計

まずは、部屋のタイプごとに件数、「一泊の価格」の平均と、一泊の価格の平均的なばらつきを表す標準偏差を集計します。

チャート・ビューに移動し、タイプに「集計テーブル」、グループ化に「部屋のタイプ」を選択します。

今回は1行が1つの物件を表しているので、部屋のタイプごとに行の数を集計することで、部屋のタイプごとに物件の数の集計が可能です。

そのため最初の値に「（行の数）」を選択します。

二番目の値に「一泊の価格」を選択して集計関数に「平均値（Mean）」を選択します。

三番目の値に再び「一泊の価格」を選択して集計関数に「標準偏差」を選択します。

一泊の価格の平均と標準偏差を計算できましたが、列名が同じなので、各々の列の集計内容が分かるように列名に関数名を追加します。

プロパティを開き、「値の列」の「関数名を表示する」にチェックをつけ、適用します。

これで、値の末日に関数名を追加できました。

なお、標準偏差の関数名も確認できるように、フォーマットを変更します。一泊の価格の標準偏差を集計した値のメニュー選択します。

「フォーマット」を選択します。

値のフォーマットの設定のダイアログから、「列の幅」を180pxに変更し、「全ての列に適用」のチェックボックスを外して適用します。

標準偏差の関数名も確認できるようになりました。

当たり前のことですが、Entire home/apt（一軒家/アパート一棟貸し）はPrivate room（個室）よりも高く、Private room（個室）はShared room（相部屋）よりも一泊の平均価格が高いことがわかります。

また、一軒家/アパート一棟貸しの物件は個室よりも2倍近く数が多く、相部屋の物件はほとんどないことがわかります。

また、平均的な価格のばらつきである標準偏差は、個室や相部屋よりも一軒家/アパート一棟貸しの方が大きいことが分かります。

ここからは、部屋のタイプごとに一泊の価格の平均値に有意な差があるかどうかを検定していきたいのですが、その前にANOVA（分散分析）を実行するうえで押さえておくべき2つの前提があるため、そちらを紹介します。

正規性

最初に押さえておくべき前提は、目的変数である「一泊の価格」が正規分布しているかどうかです。

これは分散分析が「目的変数が正規分布している」ことを前提にした検定手法だからです。

そこで、このことをチャートを使って確認してみます。チャート・ビューに移動して、タイプに「ヒストグラム」を選択します。

続いて、X軸に「一泊の価格」、繰り返しに「部屋のタイプ」を選択し、バーの数を「100」に設定します。

各部屋のタイプの「一泊の価格」は左右対称ではなく、偏りがあり、正規分布していると言い切ることが難しそうです。

そのため、実際に「一泊の価格」が正規分布しているかどうかを理解するために、正規性（正規分布しているかどうか）を検定することもできるのですが、Exploratoryで分散分析を実施した場合、自動的に正規性を検定し、その結果を確認することが可能です。

そこで今回は、分散分析の中で「一泊の価格」が正規分布に従っているかどうかを確認していきます。

なお、注文している変数が正規分布に従っているかどうかを検定する方法を確認したい方はこちらをご覧ください。

分散の均質性

続いて押さえておくべき2つ目の前提は、目的変数である「一泊の価格」の分散が均質であるかどうかです。

これは分散分析が「目的変数の分散が均一である」ことを前提にした検定手法だからです。

そのため、今回の例では部屋のタイプごとの「一泊の価格」の分散が均一かどうかを確認する必要があるのですが、先程の正規性と同様に、Exploratoryで分散分析を実施した場合、自動的に均質性を検定し、その結果を確認することが可能です。

そこで、今回は分散分析の中で「一泊の価格」の分散が均質であるかどうかを確認していきます。

One-way ANOVA（分散分析）

それでは、いよいよOne-way ANOVA（分散分析）を実行していきます。

アナリティクス・ビューに移動し、新しいアナリティクスを作成し、「統計的検定」から「One-Way ANOVA（分散分析）」を選択します。

続いて、目的変数に「一泊の価格」、説明変数に「部屋のタイプ」を選択し実行します。

One-way ANOVA（分散分析）の結果が表示されます。

サマリ

「サマリ」タブでは、検定の結果が有意かどうかを確認できます。

P値では、「複数のグループ間の平均値には差がないという帰無仮説（前提）を受け入れた場合に、ここで得られた平均値の差が観察される確率」を確認できます。

なお、P値の意味は情報アイコンをクリックして確認することが可能です。

仮に有意水準を5%とした場合、P値が十分に低いことから、帰無仮説を棄却することができ、「部屋のタイプ」と「一泊の価格」の関係は有意であると言えるわけです。

均質性

均質性のタブでは、先程紹介した「分散の等質性」の検定結果の確認が可能です。

デフォルトの設定では、「Brown–Forsythe（ブラウン・フォーサイス）検定」を使って分散の均質性を検定します。

均質性の検定における前提（帰無仮説）は「グループ間の「一泊の価格」の分散は均質である」となり、有意水準を5%とした場合、今回のP値は5%を下回っています。

そのため、帰無仮説は棄却され、「グループ間の分散は均質とは言えない」、つまり分散は均質でないと言えるわけです。

なお、サンプル数が極端に少ない場合を除き、分散の等質性の前提が満たされない状態でOne-Way ANOVA（分散分析）を実施しても、その結果に問題がないことも多いため、分散の等質性の前提が満たされない状態でも分散分析の結果を利用することがあります。

正規性

正規性のタブでは「一泊の価格」が正規分布しているかの検定結果の確認が可能です。

デフォルトの設定では、「Shapiro-Wilk Normality Test （シャピロ-ウィルクの正規性検定）」を使って正規性を検定します。

正規性の検定における前提（帰無仮説）は「一泊の価格は正規分布に従う」となり、有意水準を5%とした場合、今回のP値は5%を下回っています。

そのため、帰無仮説は棄却され、「一泊の価格は正規分布に従うとは言えない」、つまりは正規分布に従わないということになります。

なお、満たされない状態でも、One-Way ANOVA（分散分析）を実施しても、その結果に問題がないことも多いため、正規性の前提が満たされない状態でも分散分析の結果を利用することはあります。

なお、サンプル数が極端に少ない場合を除き、正規性の前提が分散の等質性の前提が満たされない状態でOne-Way ANOVA（分散分析）を実施しても、その結果に問題がないことも多いため、分散の等質性の前提が満たされない状態でも分散分析の結果を利用することがあります。

多重比較

今回のOne-Way ANOVA（分散分析）では、「部屋のタイプによって一泊の価格の平均に差はない」という帰無仮説を検定していますが、仮に有意な違いが出たとしても、それは、平均の比較が可能な「ペア」のうち、少なくとも、1つのペアにおいて有意な差があることのみを表しています。

言い換えれば、以下の三つの組み合わせのみの検定を行っていることになります。

Entire home/apt（一軒家/アパート一棟貸し）とPrivate room（個室）
Entire home/apt（一軒家/アパート一棟貸し）とShared room（相部屋）
Private room（個室）とShared room（相部屋）

そこで、どのペアにおいて有意差が生じていたかは、「多重比較」タブから確認できます。

デフォルトでは、Tukey's HSD Test（テューキーの範囲検定）を利用し、各ペアを検定します。

このときの前提（帰無仮説）は「各ペア内の一泊の価格の平均値に差はない」となり、有意水準を5%とした場合、一部のペアのP値は5%を下回っています。

そのため、今回のデータでは、「一軒家/アパート一棟貸しと個室の一泊の価格には有意な差がある」あるいは「一軒家/アパート一棟貸しと相部屋の一泊の価格には有意な差がある」と言えるわけです。

マーケティング・アナリティクス・トレーニング

効果的なマーケティング活動を行うために必要なデータ分析手法を、見込みまたは既存顧客の購買、属性、行動に関するデータを使い、実際に手を動かしながら短期間で効率的に習得していただくためのトレーニングを開催しています。

データドリブンなマーケティング活動を行うために必要なデータサイエンスの手法を短期間で習得したい方は、ぜひこの機会に参加をご検討ください！

詳細を見る