
例えば、従業員の離職など、イベントが発生した時のみ値(例: 1)が入り、それ以外は欠損値となっている列をロジカル型(TRUE/FALSE)に変換する方法を紹介します。この方法により、相関分析やロジスティック回帰、決定木などの多変量解析を効率的に実行できるようになります。
イベントの有無を分析したい方、多変量解析やモデル構築を行う方にお役立ていただける機能です。
従業員の離職データなど、イベントが発生した場合のみ値(例:1や「はい」)が入り、それ以外は欠損値となっている列があります。

このようなデータを相関分析やロジスティック回帰、決定木といった多変量解析に使用する場合、数値型のままではなく、TRUE/FALSEの2値を取るロジカル型に変換した方が分析や集計がしやすくなります。しかし、欠損値をFALSEとして扱う必要があるため、単純な型変換だけでは対応できません。
今回は1行が1人の従業員を表し、列には年齢、給料、離職などの属性情報が含まれているデータを利用します。

まず離職列をロジカル型に変換するために、「離職」列のヘッダーメニューから「データタイプを変換」を選択し、「logical型に変換」を選択します。

データタイプ変換のダイアログが開いたら、str_logical(離職)という関数が表示されます。

このstr_logical関数は指定した列をロジカル型に変換する関数で、1と0のみのデータの場合は1をTRUE、0をFALSEに自動的に変換します。また、「Yes」や「No」といった文字列も同様にTRUE/FALSEに変換できます。
特定の値のみをTRUEに変換したい場合は、関数の引数にtrue_value =を追加して指定することもできます。今回は1をロジカル型に変換するため、そのまま実行ボタンをクリックします。

これでデータ型が数値型からロジカル型に変換されました。ただし、str_logical関数は元々欠損値だったデータをFALSEではなく欠損値のまま保持します。

欠損値が残っていると、相関分析や多変量解析を実行する際に問題が生じることがあります。そのため、欠損値がFALSEを表している場合は、FALSEに変換します。
離職列のヘッダーメニューから「欠損値の加工」を選択し、「欠損値をFALSEで埋める」を選択します。

欠損値をFALSEで埋めるためのinpute_na関数が入力された状態でダイアログが表示されるので、そのまま実行ボタンをクリックします。

これで元々欠損値だった部分が全てFALSEで埋められ、離職している場合はTRUE、離職していない場合はFALSEという二値にデータに変換されました。

これにより、相関分析や多変量解析などの分析や可視化がしやすくなりました。イベントが発生した時や該当するものがあった時のみ値が入るデータは実務でよく見られるため、この方法を活用することで効率的にデータ分析を進めることができます。