ロジカル型の列に関係がある変数を探す方法

データ分析を行う際に、「離職したかどうか」「購入したかどうか」「クリックしたかどうか」といったTRUE/FALSEの二値のデータ（ロジカル型）を扱うことはよくあります。

ロジカル型自体の詳細については、こちらのセミナーをご覧ください。

このようなロジカル型の列があった時に、「どのような要因が関係しているのか」を知りたいというのは、ビジネス上非常に重要な分析テーマです。

今回は、従業員データを使って「離職に関係する変数」を探す方法を、2つのステップでご紹介します。

なぜロジカル型の列の関係性を調べることが重要なのか

例えば、あなたが人事部門の担当者だとします。従業員の離職データがあった時に、どのような要因が離職に関係しているかがわかれば、離職を防ぐための効果的な施策を打つことができます。

こういった疑問に答えることで、「何を改善すれば離職を減らせるか」が見えてきます。

まずは、サマリビューから使える「相関モード」を使って、離職と関係がある変数を探してみましょう。

サマリ・ビューを開き、「相関」のボタンをクリックします。

相関を見たい列に「離職」のようにロジカル型の列を選択します。

すると、離職と関係が強い変数が自動的にソートされて表示されます。

相関モードでは、以下のような指標を瞬時に確認できます。

AUC: 目的変数のTRUEとFALSEのデータをどれだけうまく切り分けることができているかを示す指標です。つまり、2つの変数間の関係の強さを表します。
P値: 目的変数とその変数の関係が統計的に有意かどうかを表す。P値が5%未満であれば有意であると判断される。

相関モードの大きなメリットは、数値型でもカテゴリー型でも関係なく、全ての列と目的とする列（今回は離職）との関係性を調べられる点です。

ロジカル型の列を対象とした相関モードの詳細は、こちらのセミナーをご覧ください。

相関モードは非常に便利なツールですが、1つ注意点があります。それは「交絡」の問題です。

交絡とは、複数の変数が互いに関連し合っているために、本当の関係性が見えにくくなる現象のことです。

例えば:

このように、単純な相関だけを見ていると、真の関係性を見誤る可能性があります。

交絡の問題を解決し、より正確に「どの変数が本当に離職に関係しているのか」を知るには、ロジスティック回帰が有効です。

ロジスティック回帰は、「他の変数の影響を一定にした時に、この変数は離職にどう影響するのか」を調べることができます。

アナリティクスビューを開き、タイプに「ロジスティック回帰」を選択します。

目的変数に「離職」を選択します。

説明変数に調べたい変数を複数選択します。

実行することで、ロジスティック回帰のモデルが作成できます。さらに、全てのチャートには「ガイド」がついているため、これを元にロジスティック回帰の結果を解釈していくことが可能です。

ロジスティック回帰では、相関モード以上に詳細な分析ができます。

1. 変数重要度

どの変数が離職を予測する上で最も重要かを確認できます。

2. 影響度

「他の変数が一定の時に、その変数は目的変数に対してどのような関係があるのか」が分かります。

今回ご紹介したロジスティック回帰は、多変量解析と呼ばれる分析手法の一つです。

多変量解析について、より詳しく学びたい方は、以下の参考資料をご覧ください。

ロジカル型の列（TRUE/FALSE）に関係する変数を探す方法として

この2つのステップを使い分けることで、効率的かつ正確に分析を進めることができます。

離職以外にも、コンバージョンするかどうか、不良品かどうかなど、様々なビジネスシーンで活用できる手法ですので、ぜひお試しください！