
データ分析を行う際に、「離職したかどうか」「購入したかどうか」「クリックしたかどうか」といったTRUE/FALSEの二値のデータ(ロジカル型)を扱うことはよくあります。
ロジカル型自体の詳細については、こちらのセミナーをご覧ください。
このようなロジカル型の列があった時に、「どのような要因が関係しているのか」を知りたいというのは、ビジネス上非常に重要な分析テーマです。
今回は、従業員データを使って「離職に関係する変数」を探す方法を、2つのステップでご紹介します。

例えば、あなたが人事部門の担当者だとします。従業員の離職データがあった時に、どのような要因が離職に関係しているかがわかれば、離職を防ぐための効果的な施策を打つことができます。
残業している人ほど離職しやすいのか?
年齢や勤続年数は関係があるのか?
職種によって離職率に差があるのか?
こういった疑問に答えることで、「何を改善すれば離職を減らせるか」が見えてきます。
まずは、サマリビューから使える「相関モード」を使って、離職と関係がある変数を探してみましょう。
サマリ・ビューを開き、「相関」のボタンをクリックします。

相関を見たい列に「離職」のようにロジカル型の列を選択します。

すると、離職と関係が強い変数が自動的にソートされて表示されます。

相関モードでは、以下のような指標を瞬時に確認できます。
AUC: 目的変数のTRUEとFALSEのデータをどれだけうまく切り分けることができているかを示す指標です。つまり、2つの変数間の関係の強さを表します。
P値: 目的変数とその変数の関係が統計的に有意かどうかを表す。P値が5%未満であれば有意であると判断される。
相関モードの大きなメリットは、数値型でもカテゴリー型でも関係なく、全ての列と目的とする列(今回は離職)との関係性を調べられる点です。
ロジカル型の列を対象とした相関モードの詳細は、こちらのセミナーをご覧ください。
相関モードは非常に便利なツールですが、1つ注意点があります。それは「交絡」の問題です。
交絡とは、複数の変数が互いに関連し合っているために、本当の関係性が見えにくくなる現象のことです。
例えば:
「残業の有無」と「離職」に強い関係があるように見える
しかし実は、「職種」によって残業時間が異なり、その「職種」が本当の要因かもしれない
このように、単純な相関だけを見ていると、真の関係性を見誤る可能性があります。
交絡の問題を解決し、より正確に「どの変数が本当に離職に関係しているのか」を知るには、ロジスティック回帰が有効です。

ロジスティック回帰は、「他の変数の影響を一定にした時に、この変数は離職にどう影響するのか」を調べることができます。
アナリティクスビューを開き、タイプに「ロジスティック回帰」を選択します。

目的変数に「離職」を選択します。

説明変数に調べたい変数を複数選択します。

実行することで、ロジスティック回帰のモデルが作成できます。さらに、全てのチャートには「ガイド」がついているため、これを元にロジスティック回帰の結果を解釈していくことが可能です。

ロジカル型の列(TRUE/FALSE)に関係する変数を探す方法として
相関モード: 素早く全体像を把握し、関係がありそうな変数を見つける。
ロジスティック回帰: 交絡の問題に対処し、真の関係性を詳しく分析する。
この2つのステップを使い分けることで、効率的かつ正確に分析を進めることができます。
離職以外にも、コンバージョンするかどうか、不良品かどうかなど、様々なビジネスシーンで活用できる手法ですので、ぜひお試しください!