ロジカル型の列に関係がある変数を探す方法

データ分析を行う際に、「離職したかどうか」「購入したかどうか」「クリックしたかどうか」といったTRUE/FALSEの二値のデータ(ロジカル型)を扱うことはよくあります。

ロジカル型自体の詳細については、こちらのセミナーをご覧ください。

このようなロジカル型の列があった時に、「どのような要因が関係しているのか」を知りたいというのは、ビジネス上非常に重要な分析テーマです。

今回は、従業員データを使って「離職に関係する変数」を探す方法を、2つのステップでご紹介します。

なぜロジカル型の列の関係性を調べることが重要なのか

例えば、あなたが人事部門の担当者だとします。従業員の離職データがあった時に、どのような要因が離職に関係しているかがわかれば、離職を防ぐための効果的な施策を打つことができます。

  • 残業している人ほど離職しやすいのか?

  • 年齢や勤続年数は関係があるのか?

  • 職種によって離職率に差があるのか?

こういった疑問に答えることで、「何を改善すれば離職を減らせるか」が見えてきます。

ステップ1: 相関モードで関係する変数を探す

まずは、サマリビューから使える「相関モード」を使って、離職と関係がある変数を探してみましょう。

サマリ・ビューを開き、「相関」のボタンをクリックします。

相関を見たい列に「離職」のようにロジカル型の列を選択します。

すると、離職と関係が強い変数が自動的にソートされて表示されます。

相関モードでは、以下のような指標を瞬時に確認できます。

  • AUC: 目的変数のTRUEとFALSEのデータをどれだけうまく切り分けることができているかを示す指標です。つまり、2つの変数間の関係の強さを表します。

  • P値: 目的変数とその変数の関係が統計的に有意かどうかを表す。P値が5%未満であれば有意であると判断される。

相関モードの大きなメリットは、数値型でもカテゴリー型でも関係なく、全ての列と目的とする列(今回は離職)との関係性を調べられる点です。

ロジカル型の列を対象とした相関モードの詳細は、こちらのセミナーをご覧ください。

相関モードの限界

相関モードは非常に便利なツールですが、1つ注意点があります。それは「交絡」の問題です。

交絡とは、複数の変数が互いに関連し合っているために、本当の関係性が見えにくくなる現象のことです。

例えば:

  • 「残業の有無」と「離職」に強い関係があるように見える

  • しかし実は、「職種」によって残業時間が異なり、その「職種」が本当の要因かもしれない

このように、単純な相関だけを見ていると、真の関係性を見誤る可能性があります。

ステップ2: ロジスティック回帰でより詳しく調べる

交絡の問題を解決し、より正確に「どの変数が本当に離職に関係しているのか」を知るには、ロジスティック回帰が有効です。

ロジスティック回帰は、「他の変数の影響を一定にした時に、この変数は離職にどう影響するのか」を調べることができます。

アナリティクスビューを開き、タイプに「ロジスティック回帰」を選択します。

目的変数に「離職」を選択します。

説明変数に調べたい変数を複数選択します。

実行することで、ロジスティック回帰のモデルが作成できます。さらに、全てのチャートには「ガイド」がついているため、これを元にロジスティック回帰の結果を解釈していくことが可能です。

ロジスティック回帰で分かること

ロジスティック回帰では、相関モード以上に詳細な分析ができます。

1. 変数重要度

どの変数が離職を予測する上で最も重要かを確認できます。

2. 影響度

「他の変数が一定の時に、その変数は目的変数に対してどのような関係があるのか」が分かります。

今回ご紹介したロジスティック回帰は、多変量解析と呼ばれる分析手法の一つです。

多変量解析について、より詳しく学びたい方は、以下の参考資料をご覧ください。

  • アナリティクスの文法を使った予測モデルの解釈 - リンク

  • 重回帰分析の紹介 - リンク

まとめ

ロジカル型の列(TRUE/FALSE)に関係する変数を探す方法として

  1. 相関モード: 素早く全体像を把握し、関係がありそうな変数を見つける。

  2. ロジスティック回帰: 交絡の問題に対処し、真の関係性を詳しく分析する。

この2つのステップを使い分けることで、効率的かつ正確に分析を進めることができます。

離職以外にも、コンバージョンするかどうか、不良品かどうかなど、様々なビジネスシーンで活用できる手法ですので、ぜひお試しください!

Export Chart Image
Output Format
PNG SVG
Background
Set background transparent
Size
Width (Pixel)
Height (Pixel)
Pixel Ratio