今回は従業員データを使用していきます。
この列は1行が1従業員で列には年齢や職種、給料といった列があります。
例えば、下記のようにX軸に年齢、Y軸に給料を割り当てた散布図があります。そして、年齢と給料の平均値のリファレンスラインを引くと下記のように4つのグループを作ることができます。
今回は、この2つの数値を掛け合わせた時にできる4象限のグループをチャートで作る方法とデータラングリングをしてデータとして作る方法を紹介します。
新しくチャートを作成してタイプに散布図 (集計なし) を選択します。
X軸にはAge(年齢) を選択し、Y軸にはMonthlyIncome(給料) を選択します。
2つの数値の関係性を散布図として可視化することができました。
次に4象限にしていくために、それぞれの列で平均値のリファレンスラインを引いていきます。
X軸のメニューからリファレンスラインを選択します。
リファレンスラインのタイプに平均値 (mean) を選択します。
X軸に割り当てられている年齢の平均値の線を引くことができました。
同様に、Y軸にも平均のリファレンスラインを引いていきます。
Y軸のメニューからリファレンスラインを選択します。
リファレンスラインのタイプに平均値 (mean) を選択します。
これで年齢と給料の平均値をもとに4象限にしてグループを作ることができました。
先程は全ての従業員で4象限にしてグループを作っていきましたが、任意のグループごとにチャートを作って4つのグループを作りたいことがあります。
今回は職種ごとに年齢と給料の平均値をもとに4つのグループを作っていきます。
繰り返しにJobRole(職種) を選択します。
職種ごとにチャートを作ることができました。
これらのリファレンスラインは全体での平均値の線が引かれているのでいくつかの職種では、年齢が高くて給料も高いグループに偏ってしまっていることがあります。
そのため、全体に比べた時に、それぞれの職種がどのグループに位置しているのかを見たい時には役立ちます。
もし、職種ごとの年齢と給料の平均値をもとに4つのグループを作りたい時には、リファレンスラインの設定からグループ化に繰り返しを選択します。ちなみに、X軸とY軸の双方のリファレンスラインのグループ化を繰り返しにする必要があります。
これにより、それぞれの職種ごとに年齢と給料の平均値の線を引くことができました。
職種ごとにX軸やY軸のレンジが異なるので、繰り返しのレイアウトの設定をします。
繰り返しのメニューからレイアウトを選択します。
レイアウトの設定のダイアログが開くので、チャート間の同期をX軸とY軸ともに外します。
これで、職種ごとに年齢と給料の平均値をもとに4つのグループを作ることができました。
例えば、先程チャートで作成したように年齢と給料の平均値をもとに4つのグループを職種ごとにデータとして作りたいとします。
職種ごとに作成したいので、JobRoleの列ヘッダメニューからグループ化を選択します。
これで職種ごとにグループ化することができました。
次に、Ageの列ヘッダメニューから計算を作成(Mutate) を選択します。
計算を作成のダイアログが表示されました。
計算エディタには下記の計算式を入力して実行します。
Age > mean(Age)
年齢が平均値よりも高ければTRUEを返す列を作成することができました。
給料の列も同様に平均値よりも高いかのラベルをつけていきます。
MonthlyIncomeの列ヘッダメニューから計算を作成(Mutate) を選択します。
計算エディタには下記の計算式を入力して実行します。
MonthlyIncome > mean(MonthlyIncome)
これで給料が平均値よりも高ければTRUEを返す列を作成することができました。
次にこれらの列をつなげて、値が下記のようになる列を作成したいです。
Shiftキーを押して先程作成した列を選択し、列ヘッダメニューから複数の列をつなげる(Unite) を選択します。
複数の列をつなげる(Unite)のダイアログが表示されました。
任意の列名を指定して実行します。
これで、職種ごとに年齢と給料の平均値をもとに4つのグループを作ることができました。
確認のため、職種ごとに4つのグループを作っているチャートの色で分割に作成した列を割り当てます。
すると、職種ごとに4つのグループを平均値を境にして綺麗に分けられていることが確認できます。