こんにちは
Exploratoryの白戸です。
前回は、散布図の「線形回帰によるトレンドライン」という機能を使うことで、2つの数値データ間の相関関係を詳しく見ていきました。
今回は、散布図に「色で分割」と「繰り返し」の機能を使って、グループ(またはカテゴリー)ごとに2つの数値データ間の相関関係を可視化して、より細かくみていきたいと思います。
今回も前回と同様に、従業員のデータを使用していきます。
このデータは各行が従業員ひとりひとりのステータスを表し、年齢や勤続年数や所属部署、そして月収などのデータがあります。
データはこちらからダウンロードできます。
目的
月収と勤続年数の相関は性別や職種別に違うのか知りたい
使用機能
前回、月収と勤続年数の間に強い相関関係があることがわかりましたが、性別や職種によって相関係数は違うのかという疑問が生まれました。
今回は、散布図の「色で分割」と「繰り返し」の機能を使って、月収と勤続年数の関係を性別や職種ごとに可視化し、さらに「トレンドライン」を使ってより詳しく理解していきたいと思います。
チャートのX軸には勤続年数を表すTotalWorkingYears、Y軸には月収を表すMonthly Incomeを選択している散布図を使用します。
次に、Y軸のメニューからトレンドラインを選択して線形回帰を引いてください。
月収と勤続年数の相関係数(Correlation)は0.772と強い相関関係があります。
先ほどみた相関は、男女混合にした全てのデータに対するものでした。
男女別に相関は違うのか見ていきたいために、色で分割を使用していきます。
色で分割にGenderを選択します。
男女別に散布図を可視化することができました。
男性の相関係数は0.78です。
女性の相関係数は0.76でした。
若干ですが、男性の方が月収と勤続年数の間にある相関関係が強いようです。
次に職種ごとに、散布図を可視化していきたいと思います。
色で分割に職種を表すJobRoleを選択します。
色で職種ごとに散布図に可視化することができました。
しかし、職種が9つあるために一つの散布図で表現するとみづらくなってしまいます。
そのため、「色で分割」をする代わりに、「繰り返し」を使ってそれぞれのカテゴリごとにチャートを作ってみましょう。
繰り返しにJobRoleを選択します。
ひとつの職種につき、散布図をひとつ作成することができました。
このままだと見づらいため、繰り返しのプロパティから列の数を3に、全画面に収めるにチェックし、チャート間の同期をX軸とY軸共にチェックを外します。
チャートがより見やすくなりました。
もっとチャートの表示領域を広げるために、右に表示されている凡例を上に表示します。
チャートタイプの上にあるプロパティから、判例の位置を上に変更します。
職種別にトレンドラインの線形回帰を引いた散布図を可視化することができました。
職種別に見ると、それぞれ相関が違うことがわかりました。
また,Sales RepresentativeやLaboratory Technicianは傾きが他の職種に比べて小さいために、勤続年数が増えても月収は上がりにくいようです。
職種ごと相関を見ていきましたが、性別を「色で分割」に加えることで、職種の性別ごとに相関を可視化していきたいと思います。
色で分割にGenderを選択します。
職種の性別ごとに散布図を作成することができました。
職種によって、男性の方が月給が高くなりやすい職種と女性の方が月給が高くなりやすい職種があることがわかりました。
今回は「色で分割」や「繰り返し」を使って、グループ(またはカテゴリー)ごとにデータの中にある相関関係を可視化し、より詳細に理解していくことができました。
これまで3回にわたって散布図を使うことで、2つの数値データの間の関係を可視化してきました。この散布図は2つの数値データ間の相関関係を調べる時によく使われます。
皆さんもぜひ使ってみてください。
次回はバブルチャートを使って可視化していきます。 バブルチャートは散布図と同様にX軸とY軸に対応した位置にデータを点でプロットします。しかし、散布図は全てのデータポイントをプロットしますが、バブルチャートはカテゴリごとに集計したデータをプロットするという違いがあります。
データの可視化、またはデータ分析に関してもっと知りたい、学びたいという方は、私達が提供しているトレーニングやセミナーに参加してみてください。
こちらのExploratoryデータ・アカデミーのページに詳細情報があります。
データを使ってより良い意思決定を行っていきたいと言う方は、ぜひこの機会に参加をご検討ください!