数値データの分布を可視化する際によく使われるヒストグラムの作り方をご紹介します。
サンプルデータとして従業員データを使用していきます。 このデータは1行が1従業員で、列には給料や職種などの列があります。
今回は、「給料」のデータの分布を密度曲線を使って可視化していきます。
チャートビューからチャートを作成し、タイプに「密度曲線」を選び、X軸に「給料」を選択します。
給料の密度曲線が作成できました。曲線の下の面積が1となるように高さが決まっているため、Y軸はその地点の密度になります。
もしデータに外れ値がある場合は、外れ値を含むのチェックを外すことで外れ値を除くことができます。外れ値の閾値は1.5IQRを使用しています。
ヒストグラムを見ると、給料が2,000ドルから6,000ドルの間に多くの人が集まっているようです。また、給料が10,000ドル以上の人たちも一定数いるようで、16,000ドルから20,000ドルにも多少のデータが集まっています。
色で分割に「職種」を選択します。
職種ごとに分けて密度曲線で可視化することができました。
職種ごとに見ると、給料が高い人たちはマネージャーやリサーチディレクターということがわかりました。
一方で、ラボ技術者やリサーチサイエンティスト、営業担当といった職種は他に比べて給料が低い人たちが多いようです。
ヒストグラムでは実際の値の分布を可視化するのに対し、密度曲線では実際の値をもとに推定された分布を可視化するため、どのあたりにデータがどれくらいの比率で集まっているかを理解しやすいチャートです。
Q: 密度曲線はどのように描かれていますか?
密度曲線は、データの分布を「カーネル密度推定」を使って表現したものとなります。
カーネル密度推定については、こちらをご覧ください。
密度曲線の作成方法のイメージとしては、下記のようになります。
例えば給料の分布を密度曲線として表す際には、給料をX軸に点としてプロットします。
その後に、各点は正規分布に従うと仮定して、それぞれの点に対してのばらつきの分布を描きます。
最後に、各点のばらつきの分布を足し上げていくことで、密度曲線で見えているものができあがります。