列間の相関係数を総当たりで求める「相関行列」を確認することができる、アナリティクスビューの「相関」の使い方を紹介します。
相関関係とは、2つの変数のうち、1つの変数の値が変わるともう1つの変数の値も一定の規則を持って一緒に変わる関係のことを言います。
この相関関係を表す指標として、「相関係数」があります。
相関係数は-1から1の値を取り、1に近いほど正の相関関係があり、-1に近いほど負の相関があります。また、0に近ければ相関関係がないということになります。
今回はサンプルデータとして、従業員データを使用していきます。
アナリティクスビューを開き、タイプに「相関」を選択します。
変数をクリックすることで列の選択と設定のダイアログが表示されるため、相関関係をみたい列を選択します。ちなみに、Shiftキーを押すことで複数の列を一気に選択することが可能です。
また、相関を求めることができるのは、数値型またはロジカル型の列のみとなっています。
列を選択できたら、実行ボタンをクリックします。
これにより、列ごとの相関(相関行列)を一気に求めることができました。
「相関」タブでは、列ごとの相関係数がヒートマップで可視化されます。
このチャートの見方としては、正の相関(1に近い)ほど赤色が濃くなり、負の相関(-1に近い)ほど青色が濃くなります。また、相関がない(0に近い)場合は、色がグレーになっていきます。
チャートの左上にある「相関係数を表示」にチェックをつけることで、それぞれの相関係数をチャート上に表示することもできます。
「有意性」タブでは、それぞれの列の相関関係が統計的に有意かどうかがわかります。有意である場合は、赤色(正の相関)、または青色(負の相関)で表示され、有意でない場合は色はグレーで表示されます。
この相関行列をデータフレームとして保存したい場合は、エクスポートのボタンからチャート・データを新規データフレームとして保存をクリックします。
これにより、相関行列をデータフレームとして作ることができます。
相関係数を求めるためのメソッドには、ピアソン(Pearson)とスピアマン(Spearman)の2つがサポートされており、デフォルトではピアソンが使用されています。
一般的にはピアソンが相関の強さを表す指標として使われますが、変数間の関係が線形(直線)でない場合、または変数の分布が正規分布でない場合にはスピアマンを使ったほうが2つの変数間の関係をより正確に捉えることができます。
ピアソンとスピアマンの違いは下記となっています。
相関では、列の値が一つのパターンしか取らない場合、相関を求めることができないので表示されません。
値が一つのパターンしか取らないかどうかを確認するためには、サマリビューを使うと簡単に調べることができます。
列に欠損値(NA)が含まれている場合、欠損値を除いたうえで相関係数が求められるようになっています。
相関を実行した際の変数の並び順は、デフォルトでは「相関係数」をもとにしており、相関係数の正の値(1)から負の値(-1)の順で並ぶようになっています。
もし変数の並び順を任意のものに変更したい場合は、設定から変数の並び順に「指定された順序」を使うことで、相関の変数選択のダイアログで列選択した順番をもとに並べられるようになっています。
実際に、下記の例では変数の選択順と同じ順番で変数が並んでいることが確認できます。