可視化シリーズ 第17弾 - 箱ヒゲ図を使ってカテゴリごとに数値の分布を可視化する

こんにちは

Exploratoryの白戸です。

今回は、カテゴリデータごとに数値データの分布を見たい時によく使われる箱ヒゲ図の紹介をします。

使用データ

今回も前回と同様に、従業員のデータを使用していきます。

このデータは各行が従業員ひとりひとりのステータスを表し、年齢や勤続年数や所属部署、そして月収などのデータがあります。

データはこちらからダウンロードできます。

データの可視化の目的

目的

性別や職種ごとに給料の分布がどう違うのか知りたい。

使用機能

  • 箱ヒゲ図
  • 色で分割

箱ヒゲ図の見方

ここで、箱ヒゲ図の見方について紹介します。

縦軸が月収の範囲、横軸が人数のヒストグラムがあり、人数は全部で12人います。

それを人数が等しくなるように4分割します。この人数が等しくなるように分割することを等頻度と言います。すると、3人ずつのグループが4つできました。

この4分割した際に25%地点に当たる位置を第1四分位数(1Q)、50%地点に当たる位置が第2四分位数(中央値)、75%地点に当たる位置を第3四分位数(3Q)といい、これらを四分位数と呼びます。

そして箱ヒゲ図の箱はこの第1四分位数(1Q)から第3四分位数(3Q)までのことで、中央値から上下に25%ずつのデータがあるため、50%のデータがこの箱に集まっていることになります。ちなみに、この箱に含まれる範囲のことを四分位範囲(IQR)と言ったりします。

箱ヒゲ図で説明すると、下記のようになります。

次に、箱ヒゲ図のヒゲの部分は下が最小値、上が最大値を表します。

縦の長さが狭い場合は、その範囲にデータが密集しているということになります。もし縦が長い場合は範囲が広く、データがばらついているということです。

外れ値の場合は一般的に、IQR(四分位範囲)、つまり箱に含まれる範囲に1.5掛けたものを、第1四分位数(1Q)から下へ、または第3四分位数(3Q)から上へ伸ばした範囲よりはみ出ているものを外れ値として定義しています。

箱ヒゲ図の説明はここまでにして、さっそく箱ヒゲ図を作ってみましょう。

可視化

カテゴリーである「性別」ごとに数値の「月収」の分布を表す箱ヒゲ図を作ってみましょう。

チャートを新規作成し、タイプに箱ヒゲ図を選びます。

X軸には性別ごとに見たいため「Gender」を、Y軸には月収の分布を見たいため「MonthlyIncome」を選びます。

性別ごとに月収の分布を可視化することができました。

性別がFamale(女性)の箱ヒゲ図の値です。

性別がMale(男性)の箱ヒゲ図の値です。

これらを比べてみると、女性の方が男性に比べて全ての値が高く、中央値では250ドル、第3四分位数では600ドルも違うようです。

ちなみに外れ値を含むにチェックをすると箱ヒゲ図のヒゲの部分が外れ値まで伸びます。

次に職種ごとに、月収に違いはあるのかみていきましょう。

職種ごとの月収の分布

X軸に職種を表す「JobRole」を選択します。

ここで先ほどチェックをした外れ値を外しておきましょう。

職種ごとに月収の分布を表す箱ヒゲ図を作ることができました。

職種によって、月収の分布に違いがあるのがわかります。

ここで、見やすくするために中央値の値をもとに月収が高い方から低い方へと並べ替えてみましょう。

ソートにY軸で降順(DESC)を選びます。

すると、月収の高い順に並び替えることができました。

この箱ヒゲ図を見ると、3つの分布があるように見えます。

月収が高い分布と、中間に位置する分布、そして月収が低い分布があることがわかります。 月収が高いのは、ManagerとResearch Directorで、中央値では約17,000ドルもあります。日本円でいうと、200万円近くもらっているということです。かなり高いですね。

さて、この職種ごとによる月収の分布は男女間で違うのでしょうか。

それを見るため、色(グループ化)を使って、性別と職種の情報を可視化していきましょう。

職種を男女ごとに分けた月収の分布

色(グループ化)に「Gender」を選択します。

そうすることで、職種を男女ごとに分けて箱ヒゲ図を作ることができました。

しかし、箱ヒゲ図の色が、Femaleに青色、Maleにオレンジと判例を確認しないと直感的に性別と判断することができないので、色を変えていきましょう。

今回は事前に作成していた性別用のカスタムパレットを使用していきます。 もし、カスタムパレットの作成方法がわからない方は、こちらをご覧ください。

色(グループ化)のメニューから色の設定を開きます。

パレットをカスタムにし、作成してある性別用のカスタムパレットを選択して適用します。

職種を男女ごとに分けた箱ヒゲ図が見やすくなりました。

これをみると、男女間で多少月収の分布が多少違うように見えます。

また、Research Directorでは、他の職種に比べて男女間の月収に結構差があり、男性の方がより多くの月収をもらっているようです。

まとめ

今回は、カテゴリごとの数値の分布を比べるために、箱ヒゲ図を使って可視化してみました。

次回は、地域ごとに集計された値を地図上に可視化できるエリアマップの紹介をします。

  • 可視化シリーズ 第18弾 - エリアマップを使って地域ごとに集計されたデータを地図に可視化する

Exploratoryデータ・アカデミー

データの可視化、またはデータ分析に関してもっと知りたい、学びたいという方は、私達が提供しているトレーニングやセミナーに参加してみてください。

こちらのExploratoryデータ・アカデミーのページに詳細情報があります。

データを使ってより良い意思決定を行っていきたいと言う方は、ぜひこの機会に参加をご検討ください!