こちらのノートでは「その他」グループを作成する方法を紹介します。
Character型やFactor型などの文字列型の列では、「その他グループを作る」機能を使って、簡単に「その他」グループを作成できます。
「その他グループを作る」ときには3つ方法で「Other(その他)」グループを作ることが可能です。
例えば、以下のように1行が1人の従業員を表すデータがあり、従業員の「教育分野」の列があったとします。
「教育分野」は全部で6種類あり、ここから「Other(その他)」グループを作っていきます。
「行数の多くない値」を選択したときには各グループの出現頻度をもとに、その他グループを作ることができます。
「教育分野」の列ヘッダーメニューから「'その他'グループを作る」の「行数の多くない値」を選択します。
すると、以下のように「計算を作成」のダイアログが開き、出現頻度に応じて、「Other(その他)」グループを作成するためのfct_lump関数が、計算エディタに表示されます。
n=
には、「Other(その他)」グループにまとめない、残すカテゴリーの数を指定します。
もし、上位3つのグループを残して、それ以外を「Other(その他)」にまとめたいときにはn=3
と指定するわけです。
なお、ties.method
は頻度が同数だった時の処理方法を指定する引数で、以下の手法の選択が可能で、デフォルト値は"first"
です。
出現頻度に応じて、「Other(その他)」グループを作成するための設定を終えたら実行ボタンをクリックします。
教育分野の出現頻度をもとに、頻度の多い「ライフサイエンス」「医療」「マーケティング」と、それ以外を「Other」グループをにまとめられました。
「含む値を任意に選ぶ」では、「Otherグループにまとめない」値を直接指定できます。
「含む値を任意に選ぶ」を選択すると、「計算を作成」のダイアログが開き、「Otherグループにまとめない」値を直接指定するためのfct_other関数と、それらの値を指定する引数であるkeepと、その中で指定する値の候補がサジェスチョンとして表示されます。
仮に「マーケティング」「ライフサイエンス」以外をotherグループにまとめたいときには、以下のように入力して実行します。
「マーケティング」と「ライフサイエンス」以外をOther(その他)グループにまとめることができました。
「含まない値を任意に選ぶ」では、「Otherグループにまとめる」値を直接指定できます。
「含まない値を任意に選ぶ」を選択すると、「計算を作成」のダイアログが開き、「Otherグループにまとめる」値を直接指定するためのfct_other関数と、それらの値を指定する引数であるdropとその中で指定する値の候補がサジェスチョンとして表示されます。
仮に「マーケティング」「ライフサイエンス」をotherグループにまとめたいときには、以下のように入力して実行します。
「マーケティング」と「ライフサイエンス」をOther(その他)グループにまとめることができました。