可視化シリーズ 第13弾 - 散布図を使って2つの数値データの関係を可視化する

こんにちは

Exploratoryの白戸です。

前回は、ヒートマップを使用してカテゴリーどうしを組み合わせて集計した数値を繰り返しごとにみていきました。

今回は2つの数値データが交わる位置にデータを点でプロットする散布図を可視化していきます。

使用データ

今回から従業員のデータを使用していきます。

このデータは各行が従業員ひとりひとりのステータスを表し、年齢や勤続年数や所属部署、そして月収などのデータがあります。

データのダウンロードはこちらから

データのインポート方法がわからない場合は、下記にある過去の記事を参照してください。

Exploratoryを使ったデータの可視化シリーズ 第1弾 - はじめに

データの可視化の目的

目的

  • 年齢と月収の関係を知りたい
  • 勤続年数と月収の関係を知りたい

使用機能

  • 散布図

可視化

年齢と月収の関係

新しくチャートを作成し、チャートタイプに散布図を選びます。

X軸にはAgeを選択します。

Y軸には月収を表すMonthlyIncomeを選択してください。

年齢と月収の関係性を表す散布図を作成することができました。

散布図は、X軸(年齢)とY軸(月収)の交わる位置にデータを点でプロットします。また、今回のデータは一行が一人の従業員のデータのため、一つの点が従業員一人のデータということになります。

この散布図を見ると、年齢が上がるにつれて月収も上がっているように見えます。

また、40歳までは月収が$10k以下の人が多いようです。

年齢と月収の関係性をみていきましたが、年齢が上がるからといって、月収が必ず上がるというわけではなさそうです。 次に、勤続年数と月収をみていきたいと思います。

勤続年数と月収の関係

先ほど作成したチャートのX軸を勤続年数を表す、TotalWorkingYearsに変更します。

勤続年数と月収の散布図を作成することができました。

勤続年数が20年を超えたあたりから、月収が$10k以下の人が少なくなり、月収の水準がかなり高いことが読み取れます。

2つの散布図を可視化してきましたが、勤続年数の方が、年齢よりも月収に影響がありそうです。

まとめ

今回は散布図を使用して、2つの数値データに対応する位置にデータを点でプロットして可視化していきました。

散布図は2つの数値データのばらつきをみたい時に便利なチャートです。

今回は年齢と月収、勤続年数と月収の2つの散布図をみてきましたが、相関関係はあるのか気になるところです。 そのため、次回は散布図にトレンドラインを引くことで、相関をみていきたいと思います。

可視化シリーズ 第14弾 - 散布図とトレンドラインを使って相関を可視化する


データサイエンス・ブートキャンプ7月開催!

Exploratoryでは7月に、データサイエンスの手法をプログラミングすることなしに基礎から体系的に学び、 それを実際の業務で使えるレベルのスキルを身につけていただくことを目的とした 3日間コースのトレーニングを平日版と週末版で開催します。

詳しくはこちらのページをご覧ください。

データを使ってより良い意思決定を行っていきたいと言う方は、ぜひこの機会に参加をご検討ください!