エラーバーの作り方

信頼区間を可視化する時によく使われるエラーバーの作り方をご紹介します。

サンプルデータとして従業員データを使用していきます。 このデータは1行が1従業員で、列には職種や給料、離職などの列があります。

エラーバーで信頼区間を可視化する時には、1行が何を表しているのかに注意する必要があります。信頼区間を求める際にサンプルサイズ(データの行数)が計算する上で重要な要素になるため、今回の従業員データのように1行が1観測対象である必要があります。

Google Analyticsなどの1日ごとに集計されたデータの場合は、信頼区間の幅が広くなってしまうため、集計済データで信頼区間を可視化する方法をご覧ください。

今回は、職種ごとに給料(数値)と離職(ロジカル)の95%信頼区間をエラーバーを使って可視化していきます。

職種ごとに給料(数値)の95%信頼区間を可視化する

チャートビューからチャートを作成し、タイプにエラーバーを選択します。

X軸に職種、Y軸に給料を選択します。

職種ごとの給料の平均値と信頼区間を比較しやすくするために、並び替え(ソート)にチェックをつけます。

このバーは平均値を表していますが、バーの上にあるテトラポットのような線が95%信頼区間です。

範囲タイプには他にも種類があり、99%信頼区間や標準偏差なども選択できます。今回は最も使われている95%信頼区間をそのまま使用していきます。

95%信頼区間だけで比較するためにマーカーにサークルを選択します。

給料の平均と信頼区間をみると、3つのグループがあるように見えます。

職種がマネージャーとリサーチディレクターは、他の職種と信頼区間が重なっていないため、給料が他の職種と違うと言えます。

これらの職種間の違いは、信頼区間が重なっているので真の平均がほぼ同じかもしれず、優位な差があるとは言い切れません。

職種ごとに離職(ロジカル)の95%信頼区間を可視化する

先ほど使用したエラーバーのチャートを使い、Y軸にはロジカル型の列である「離職」を割り当てます。

エラーバーにマウスオーバーしたところ、割合の対象(総数)は「X軸」になっています。

割合の対象が「X軸」の場合は、営業担当のTRUEの数(33)を営業担当の行の数(83)で割った割合が可視化されています。

離職率の信頼区間をみると、3つのグループがあるように見えます。

職種が営業担当の場合は、一部の職種を除き、他の職種とほとんど信頼区間が重なっていないため、有意な違いがあると言えそうです。

これらの職種では信頼区間が重なっているため、このグループ内での離職率の違いは有意とは言えません。

エラーバーに関するよくある質問

Q: エラーバーの線の太さを変更したい

エラーバーの太さを変更したい場合、Y軸のスタイルの設定から変更が可能です。詳しくはこちらの投稿をご覧ください。

参考資料

  • データの可視化ワークショップ #4 - 不確実性の可視化 - リンク
  • 集計済みデータで信頼区間を求める方法 - リンク
  • コンバージョン率の信頼区間を日付ごとに計算したい - リンク
  • NPSの信頼区間を計算する方法 - リンク
Export Chart Image
Output Format
PNG SVG
Background
Set background transparent
Size
Width (Pixel)
Height (Pixel)
Pixel Ratio