可視化シリーズ 第14弾 - 散布図とトレンドラインを使って相関を可視化する

こんにちは

Exploratoryの白戸です。

前回は、2つの数値データが交わる位置にデータを点でプロットする散布図を可視化しました。

今回は散布図にトレンドラインという機能を使うことで、数値型データどうしの間にある相関関係をより詳しく見ていきたいと思います。

使用データ

今回も前回と同様に、従業員のデータを使用していきます。

このデータは各行が従業員ひとりひとりのステータスを表し、年齢や勤続年数や所属部署、そして月収などのデータがあります。

データはこちらからダウンロードできます。

データの可視化の目的

目的

月収と年齢、または勤続年数の間に相関関係があるのか知りたい。もしあるのであれば、どれくらい強い相関なのかも知りたい。

使用機能

  • 散布図
  • トレンドライン:線形回帰

可視化

前回は散布図を作って月収と年齢、または月収と勤続年数の間にある相関関係を可視化することで、視覚的に理解しました。

今回は、散布図の機能である「線形回帰によるトレンドライン」を使うことで、より具体的に相関関係を理解していきたいと思います。

月収と年齢の相関関係

月収と年齢の間の相関関係をトレンドラインを使ってみてみましょう。

X軸にはAgeを、Y軸には月収を表すMonthlyIncomeが選択されている散布図を使用します。

Y軸のメニューから、トレンドラインを選択します。

タイプに線形回帰を選びます。

散布図にトレンドラインの線形回帰を引くことができました。

トレンドラインにマウスオーバーすると相関係数(Correlation)をみることができます。

P-ValueやR Squared、Coffiecientは線形回帰に関する指標です。詳しい説明は、線形回帰を解説する記事で取り上げます。

ここでは、相関係数(Correlation)に関して簡単に説明します。

この数字は相関関係の強さ、または弱さを表します。 -1から1までの間を取り、-1だと強い負の相関関係が、1だと強い正の相関関係があるということになります。 そして、0だと相関関係がないということになります。

そのため、今回の月収と年齢の相関係数は0.497のためやや強い正の相関があることがわかりました。

月収と勤続年数の相関関係

次に、月収と勤続年数の間の相関関係をトレンドラインを使ってみていきます。

チャートのX軸には勤続年数を表すTotalWorkingYears、Y軸には月収を表すMonthly Incomeを選択している散布図を使用します。

先ほどと同様に、Y軸のメニューからトレンドラインを選択します。

タイプに線形回帰を選びます。

散布図にトレンドラインの線形回帰を引くことができました。

相関係数(Correlation)を見ると、0.772と月収と勤続年数には強い相関関係があるようです。

先ほど見た、月収と年齢の間の相関係数は0.497であったのに対し、今回の月収と勤続年数の間の相関係数は0.772なので、月収と勤続年数の間にはより強い正の相関関係があると言えます。

まとめ

今回は散布図の「線形回帰によるトレンドライン」という機能を使うことで、2つの数値データ間の相関関係をより詳しく見ることができました。

さらに月収と勤続年数の間の相関関係の方が、月収と年齢の間の相関関係に比べて、より強い正の相関があることがわかりました。

ところで、こうした月収と勤続年数の間にある相関関係というのは、性別や職種によって違いはあるのでしょうか。 この質問に答えるために、次回は散布図の「色で分割」と「繰り返し」の機能を使って、月収と勤続年数の関係を性別や職種ごとに可視化し、さらに「トレンドライン」を使ってより詳しく理解していきたいと思います。


Exploratoryデータ・アカデミー

データの可視化、またはデータ分析に関してもっと知りたい、学びたいという方は、私達が提供しているトレーニングやセミナーに参加してみてください。

こちらのExploratoryデータ・アカデミーのページに詳細情報があります。

データを使ってより良い意思決定を行っていきたいと言う方は、ぜひこの機会に参加をご検討ください!