数値型の列の間にある相関関係を見るための方法として、散布図にトレンドラインの線形回帰を引く方法をご紹介します。
今回はサンプルデータとして従業員データを使用していきます。
このデータは1行が1従業員で、列には年齢や勤続年数、給料などのデータがあります。
年齢(Age)と給料(MonthlyIncome)の関係を散布図(なし)を使って可視化したチャートが既にあるとします。
散布図(集計なし)の作り方については、こちらのノートをご覧ください。
この散布図を見ると年齢が上がるにつれて給料も上がる関係がありそうです。
果たして本当に年齢と給料には関係があると言えるのか、トレンドラインの線形回帰を引いて確かめてみます。
Y軸のメニューから、トレンドラインを選択します。
タイプに線形回帰を選びます。
散布図にトレンドラインの線形回帰を引くことができました。
トレンドラインにマウスオーバーすると相関係数(Correlation)をみることができます。
R2乗や係数、P値は線形回帰に関する指標です。
ここでは、相関係数(Correlation)に関して簡単に説明します。
この数字は相関関係の強さ、または弱さを表します。 -1から1までの間を取り、-1だと強い負の相関関係が、1だと強い正の相関関係があるということになります。 そして、0だと相関関係がないということになります。
そのため、今回の月収と年齢の相関係数は0.497のためやや強い正の相関があることがわかりました。