線形回帰などのアナリティクスでの予測タブの実測値について

アナリティクスビューから実行した線形回帰やロジスティック回帰、ランダムフォレストでは予測タブが表示されます。この予測タブを利用することで各変数がどのように目的変数に効果を与えているのかを確認することができますが、今回は予測タブでの実測値について紹介します。

予測タブの実測値はそれぞれの予測変数のデータタイプによって表示が異なります。

予測変数が数値の場合

データタイプが数値の場合は、数値を等幅で20等分して、それぞれの平均値と信頼区間が表示されています。

等幅について説明をすると、 下記のようにバーチャートでX軸に勤続年数を割り当てた際に、勤続年数は0年から40年までありますが、1年ごとにバーが表示されています。

これを等幅で20等分すると、0年 - 40歳の間は、40年分になりますが、これを20個に区切るため、一つのバー(区切り)は2年刻みになります。

チャートのタイプをラインに変更したチャートが下記になります。

このラインチャートに信頼区間を表示すると下記になります。このチャート同じく、数値を等幅で20等分して、それぞれの平均値と信頼区間を可視化したものが予測タブの実測値で表示されています。

予測変数がカテゴリーの場合

カテゴリーの場合は、カテゴリーの一意な値の数が12を超える場合は、頻出する12個のカテゴリーとそれ以外をまとめたOtherグループが表示されます。チャートとしては、平均値と信頼区間をエラーバーとして表示しています。

例えば、地域の列は一意な値の数が23個あるカテゴリー列になります。

予測タブでは、これらの行の数が多い上位12個のカテゴリーとそれ以外をまとめたOtherグループとして表示していることになります。

信頼区間について

信頼区間について詳しく知りたい方は、下記のセミナーをご覧ください。

  • データの可視化ワークショップ #4 - 不確実性の可視化 - リンク
  • 信頼区間の可視化とエラーバー - リンク