信頼区間を可視化する時によく使われるエラーバーの作り方をご紹介します。
サンプルデータとして従業員データを使用していきます。 このデータは1行が1従業員で、列には職種や給料、離職などの列があります。
エラーバーで信頼区間を可視化する時には、1行が何を表しているのかに注意する必要があります。信頼区間を求める際にサンプルサイズ(データの行数)が計算する上で重要な要素になるため、今回の従業員データのように1行が1観測対象である必要があります。
Google Analyticsなどの1日ごとに集計されたデータの場合は、信頼区間の幅が広くなってしまうため、集計済データで信頼区間を可視化する方法をご覧ください。
今回は、職種ごとに給料(数値)と離職(ロジカル)の95%信頼区間をエラーバーを使って可視化していきます。
チャートビューからチャートを作成し、タイプにエラーバーを選択します。
X軸に職種、Y軸に給料を選択します。
職種ごとの給料の平均値と信頼区間を比較しやすくするために、並び替え(ソート)にチェックをつけます。
このバーは平均値を表していますが、バーの上にあるテトラポットのような線が95%信頼区間です。
範囲タイプには他にも種類があり、99%信頼区間や標準偏差なども選択できます。今回は最も使われている95%信頼区間をそのまま使用していきます。
95%信頼区間だけで比較するためにマーカーにサークルを選択します。
給料の平均と信頼区間をみると、3つのグループがあるように見えます。
職種がマネージャーとリサーチディレクターは、他の職種と信頼区間が重なっていないため、給料が他の職種と違うと言えます。
これらの職種間の違いは、信頼区間が重なっているので真の平均がほぼ同じかもしれず、優位な差があるとは言い切れません。
先ほど使用したエラーバーのチャートを使い、Y軸にはロジカル型の列である「離職」を割り当てます。
エラーバーにマウスオーバーしたところ、割合の対象(総数)は「X軸」になっています。
割合の対象が「X軸」の場合は、営業担当のTRUEの数(33)を営業担当の行の数(83)で割った割合が可視化されています。
離職率の信頼区間をみると、3つのグループがあるように見えます。
職種が営業担当の場合は、一部の職種を除き、他の職種とほとんど信頼区間が重なっていないため、有意な違いがあると言えそうです。
これらの職種では信頼区間が重なっているため、このグループ内での離職率の違いは有意とは言えません。