対応分析を使ってカテゴリー型の変数間の相関を効率的に確認する方法 - 多変量解析で多重共線性が発生したときに役立つアプローチ

線形回帰やロジスティック回帰のモデルを実行する際、カテゴリー型の変数を大量に投入した際、多重共線性が発生してしまうものの、問題のある変数を一つずつ取り除くといった方法だと非効率な時があったりします。

例えば、アンケートデータの質問の回答を数値型として扱えないものの、複数の質問が似た傾向を持ち、ある質問への回答が決まると他の質問も同じ回答になることがあり、それが原因で多重共線性が発生することは少なくありません。

このような状況で、変数間の相関を一つずつクロス集計で確認し、多重共線性を引き起こす変数を取り除くのはとても手間がかかります。

そこで、このノートでは、対応分析(コレスポンデンス分析)を使ってカテゴリー変数間の関係を一度に、そして直感的に確認する方法を紹介します。

利用データ

今回は1行が1人のアンケート回答者を表し、各列はカテゴリー型の変数で、回答には「非常に重視する」から「まったく重視しない」までの5段階の尺度が設定されている、再購入意向の調査する顧客アンケートのデータを利用します。(上記のアンケートの回答のように、回答の内部的に順序関係がある場合は、数字型のデータに変換して扱うことも多いですが、今回はわかりやすい結果を得るため、このまま話を進めます)

このデータを使って再購入意向を目的変数としてロジスティック回帰を実行すると、以下のような完全な多重共線性が表示されます。

このような完全な多重共線性が発生した状況で、対応分析を使って、簡単にカテゴリーの間の相関を確認し、問題の原因を確認します。

対応(コレスポンデンス)分析を実行する

アナリティクス・ビューを開き、タイプに「対応分析」を選択のうえ、変数をクリックします。

変数選択のダイアログが開いたら、今回は「Q1_デザイン性を重視する」から「Q7_購入前に口コミを確認する」までを選択し、列を指定したら「実行」ボタンをクリックします。

対応分析を実行した結果と、解釈のためのガイドが表示されます。

結果の解釈

変数間の関係

このセクションでは、変数同士の関連の強さを確認できます。複数の変数が完全に同じ回答傾向を持っている場合、それらの変数はチャート上で完全に重なって表示され、近い回答傾向を持っている場合、それずれの変数が近くに配置されます。

今回のデータでは、Q1からQ5の質問が同じ回答構造を持っているため、完全に重なった位置に表示されます。これは、これらの質問が実質的に同じ内容を質問していることを意味します。

なお、Q6もQ1からQ5の変数と同じような位置にサークルがあることから、同じような回答傾向を持っていることが想定されます。

このように、「デザイン性を重視する」「機能性を重視する」「価格を重視する」などが同じ傾向で重なって表示されていれば、回答者はそれらの質問を同じ基準で判断していることになり、多重共線的を生み出している一因であることが考えられます。

なお、Q7「購入前に口コミを確認する」は他よりもばらつきが大きいため、チャート上では少し離れた位置に表示されます。重なっている変数は同じ傾向を、離れている変数は異なる傾向を持つと理解できます。

変数の値(カテゴリー)どうしの関係

このチャートでは、各変数の中の「値(カテゴリー)」同士の関係を確認でき、各点は「回答の選択肢(非常に重視する、やや重視するなど)」を表し、色はどの質問に属するかを示します。

Q1からQ5の質問はすべて同じ回答構造(値が完全に一致)になっているため、それぞれの質問の同じ選択肢、たとえば「非常に重視する」や「やや重視する」などが完全に同じ位置に重なって表示されます。(サークルが重なってるため見えづらいですが、テキストが太くなっていることからこのことを確認できます。)

このことから、これらの質問がまったく同じ回答傾向を持っていることを示しています。

なお、Q6「購入後サポートを重視する」はQ1からQ5ほど完全には一致していませんが、全体的に似た回答傾向を持っているため、対応分析の結果ではQ1からQ5の点のすぐ近く、ほぼ重なった位置に配置されます。

一方で、よりばらつきのあるQ7「購入前に口コミを確認する」は他の項目群とは少し離れた位置に表示され、異なる回答傾向を持っていることが視覚的に把握できます。

対応分析を使うと、どの質問がまったく同じ回答構造を持っているか、どの質問が似た傾向でどの質問が異なる傾向を持つのかを直感的に把握できるため、多重共線の原因となりうる列を簡単に特定できます。

Export Chart Image
Output Format
PNG SVG
Background
Set background transparent
Size
Width (Pixel)
Height (Pixel)
Pixel Ratio