このノートは、アンケートデータを有効活用して、ビジネスやサービスの改善につなげるための使い方を効率よく学ぶために作られた「アンケートデータ分析」のトライアルツアーの第1弾、「相関」版です。
Exploratoryでアンケートの回答傾向の確認、さらには回答どうしの相関関係を素早く発見していく時に使える便利な機能を体験していただければと思います。
所要時間は20分ほどとなっています。
それでは、さっそく始めていきましょう!
Exploratoryでは、データのインポートを含め、全てのデータ分析はプロジェクトの中で行います。
そのため、まずは元となるプロジェクトを作成する必要があります。
プロジェクトの管理画面から「新規作成」のボタンをクリックします。
任意のプロジェクト名を入力して作成ボタンをクリックします。
プロジェクトを作成することができました。
プロジェクトを作成することができたら、次はデータをインポートしていきましょう。
今回はサンプルデータとして「従業員アンケート」のデータを使用します。このデータは1行が1従業員の回答になっており、従業員の性別や年代、アンケートの回答に関する情報が列として入っています。
データはこちらのページからダウンロードできます。
従業員アンケートのデータをダウンロードできたら、ダウンロードしたフォルダを開き、「従業員アンケート.csv」をExploratoryの画面にドラッグ&ドロップします。
インポートダイアログが表示されました。インポートダイアログの左側にある項目から、インポート時の設定を行うことが可能ですが、今回は設定は不要なため「保存」ボタンをクリックします。
任意のデータフレーム名を指定して、「保存」ボタンをクリックします。
従業員アンケートのデータをインポートすることができました。
Exploratoryでは、データをインポートすると各列の統計値とデータの分布(チャート)を素早く確認できる「サマリビュー」が表示されます。
サマリビューで表示される統計値とチャートはそれぞれの列の「データタイプ」によって変わります。
例えば、「年代」の列はカテゴリー(character)型のため、それぞれの回答の頻度(行の数)を表す横向きのバーチャートが表示され、最も頻繁に出てくる回答から順に表示しています。
そのため、今回のアンケートでは「20代」が最も回答者数(行の数)が多く、その次に「40代」が多いということがわかります。
次に、アンケートでは5段階(または10段階)評価のの回答を設定することが多いですが、それらの回答の分布や平均値は知りたい情報の一つです。
例えば、「仕事の満足度」といった列は数値(numeric)型のため、それぞれの回答の頻度(行の数)を表すバーチャートと、回答の平均値などの統計値も表示されます。
仕事の満足度のチャートを見ると、回答が「1」や「2」に集まっているため、仕事の満足度のスコアが低い人たちが多いことがわかります。さらには、この質問の回答の平均値は「2.06」と低いことが確認できます。
アンケートデータを分析するときに、2つの列に「相関関係」があるのかどうかを調べることは重要です。
相関関係とは、2つの変数のうち、1つの変数の値が変わるともう1つの変数の値も一定の規則を持って一緒に変わる関係のことを言います。
今回は従業員の「仕事の満足度」に相関関係のある変数はどれか、それはどのような関係なのかを調べていきたいです。
そこで、Exploratoryのサマリビューの「相関モード」という機能を使って、給料と他の全ての変数との関係を一気に調べてみたいと思います。
サマリビューを開き、「相関」ボタンをクリックします。
相関を見たい列に「仕事の満足度」を選択します。
相関モードで、相関を見たい列を選択すると、データタイプに合わせてそれぞれの変数との関係を可視化したチャートと相関関係の強さを表す指標が一気に自動的に生成されます。
さらに、相関関係が強い変数から順に列がソートされます。
数値型で5段階評価などの値の範囲が小さい(例: 1〜5)場合は、それぞれの値における平均値がラインチャートとして可視化されます。薄い水色の区間は95%信頼区間になります。
もし、年齢のように値の範囲が大きい(例: 18〜60)場合は、値を等幅で10等分することになります。
カテゴリー型の場合は、それぞれのカテゴリーにおける平均値とその95%信頼区間がエラーバーとして可視化されます。
相関の対象に数値型の列が選ばれている場合、それぞれの列には下記の指標が表示されます。
また、各「指標名」の情報アイコンをクリックするか、
各指標の「値」をクリックすることで、各指標の意味を確認することができます。
R2乗またはR2乗値の情報アイコンをクリックすると、ポップアップの上部に、選択した変数が相関の対象に選んだ列(仕事の満足度)の値のばらつきの何%を説明できているかが表示されます。
また以下のようにR2乗値の説明も表示されます。
R2乗は目的変数の値のばらつきのうち、この変数によって説明される割合を示します。つまり、この2つの変数間の関係の強さを表しています。
R2乗の値は相関係数の値を2乗した値と同じになります。
値は0から1の間で、1が最も強い関係を示します。
相関係数のまた相関係数の値の情報アイコンをクリックすると、ポップアップの上部に、選択した変数と仕事の満足度との相関係数が表示されます。
また以下のように相関係数の説明も表示されます。
相関係数は2つの変数間の相関関係の強さを表します。
値は-1から1の間をとります。
- +1は最も強い正の相関関係を示します。
- 0は全く関係がないことを示します。
- -1は最も強い負の相関関係を示します。
相関係数のタイプ:ピアソン
P値またはP値の値の情報アイコンをクリックすると、ポップアップの上部に、選択した変数と仕事の満足度との関係が統計的に有意かどうかの情報が表示されます。
また以下のようにP値の説明も表示されます。
P値は、上記の2つの変数の間には関係がないという帰無仮説(前提)を受け入れた場合に、ここで見られる何らかの関係が観察される確率を示します。
もし、有意水準値よりも小さいP値が得られた場合、帰無仮説を棄却できるためこの関係は有意であり、そうでなければ有意とは言えないという結論になります。有意水準のデフォルトは0.05 (5%) です。
検定手法:クラスカル・ウォリス検定
相関モードを実行すると、各列のR2乗値を元に列がソートされ、R2乗が大きい順、言い換えれば、相関が大きい順でソートされます。
仕事の満足度と最も相関の強い変数は「仕事のやりがい」で、チャートを見ると、「仕事のやりがい」のスコアが上がると「仕事の満足度」の平均値も上がっていることがわかります。
3番目に相関が強いのは「年代」で、チャートを見ると「40代」の人たちは他の年代に比べて仕事の満足度も高いことがわかります。
指標を見ると、R2乗は0.2642と多少は相関がありますが、先ほどの「仕事のやりがい」のR2乗である0.7114と比べると、相関が強くないことがわかります。
相関モードを閉じたい場合は、右上にある「閉じる」のボタンをクリックします。
このように、「相関モード」を使って効率的に目的と他の全ての列との間の関係を一気に調べることができます。
相関モードの詳細については、こちらのセミナーでも紹介しておりますので、興味がある方はご覧ください。
先ほどは「仕事の満足度」に相関関係のある変数はどれかを探していきましたが、全ての回答列どうしで相関関係があるのかどうかを調べてみましょう。
アナリティクスビューを開き、タイプに「相関」を選択します。
変数をクリックすることで列の選択と設定のダイアログが表示されるため、相関関係をみたい回答列を選択します。ちなみに、Shiftキーを押すことで複数の列を一気に選択することが可能です。
また、相関を求めることができるのは、数値型またはロジカル型の列のみとなっています。
列を選択できたら、実行ボタンをクリックします。
これにより、回答列ごとの相関を一気に求めることができました。
「相関」タブでは、列ごとの相関係数がヒートマップで可視化されます。
このチャートの見方としては、正の相関(1に近い)ほど赤色が濃くなり、負の相関(-1に近い)ほど青色が濃くなります。また、相関がない(0に近い)場合は、色がグレーになっていきます。
「仕事のやりがい」と「成長の実感」の相関係数は0.83と、「強い正の相関」があることがわかります。
ちなみに、チャートの左上にある「相関係数を表示」にチェックをつけることで、それぞれの相関係数をチャート上に表示することができます。
アンケートデータ分析の相関版は以上となります!
アンケートデータ分析の他のパートには下記のリンクからご確認いただけます。ぜひ次の「テキスト分析」のパートも実施してみてください。