データ分析において、カテゴリー変数の取り扱いは重要な課題の一つです。
特に、他の変数との関係性を分析する際、カテゴリー変数をそのまま使用することは困難な場合があります。
今回は、Exploratoryを使用してカテゴリー変数をワンホットエンコーディングで数値化し、相関分析などを行えるデータの形にする方法を説明します。
ワンホットエンコーディングとは、それぞれの値を列とし、該当しているかどうかを0または1で表す方法となります。
カテゴリー変数を含むデータセットを分析する際、カテゴリー変数と他の変数との関係性を数値的に分析することができない。
今回は従業員データを使用していきます。1行が1従業員で列にはその従業員を表す属性情報があります。
その中でも、出張頻度といったカテゴリー(Character)型の列に注目していきます。
出張頻度のようなカテゴリー型の列では、チャートを使って関係性を確認することはできますが、サマリビューから使える「相関モード」のように、相関として一気に関係性を確認していく際には列として選択ができないようになっています。
そこで、ワンホットエンコーディングでカテゴリーの値を列として展開していきましょう。
「ステップを追加」ボタンをクリックし、「その他」から「ワンホットエンコーディング」を選択します。
対象となる列に「出張頻度」を選択します。
実行することで、ワンホットエンコーディングを実行できました。
ワンホットエンコーディングで生成された新しい列のデータタイプをロジカル型に変換をしていきます。
列ヘッダーメニューから「データタイプを変換」の「Logical(論理値)型に変換」を選択します。
計算を作成 - 複数の列のダイアログが表示されるため、「実行」ボタンをクリックします。
これによってそれぞれの列をロジカル型に変換できました。
サマリービューの「相関モード」を使って、ワンホットエンコーディングで生成された列と他の変数との関係を一気に調べていくことが可能です。
相関モードについての詳細については、こちらをご参照ください。