このノートでは数値からカテゴリーを作成する方法を紹介します。
数値型の列からカテゴリーを作成するには列ヘッダーメニューの「カテゴリーを作成」を選択します。
「カテゴリーを作成」するダイアログが表示されたら、「カテゴリーの設定」から数値データからカテゴリーを作成するための処理のタイプを選択することが可能です。
「等幅」は数値を「同じ幅」でカテゴリー(グループ)に分ける方法です。
カテゴリーのタイプに「等幅」を選択すると、いくつかの設定メニューが表示されます。
カテゴリーの数には、作成したいカテゴリーの数を指定します。例えば、カテゴリーの数が「10」の時は給料を10のグループに分けます。
ラベルでは、分けられたカテゴリーのカテゴリー名を指定することが可能です。複数のラベルを設定するときにはカンマ区切りでラベルを入力します。
通常は、値の最小値を基点にカテゴリーが作成されます。
「0を中央する」にチェックを付けてプレビューをクリックすると、以下のように0が中央になるようにカテゴリーが分けられます。
「範囲の端の扱い」では、上端あるいは下端の値の含み方を指定できます。
例えば、以下の画像のように、「下端の値を含む」を選択すると、「4807」という値は、「4,807.00-8,605.00」のカテゴリーに含まれることなります。
一方で、以下の画像のように、「上端の値を含む」を選択すると、「4807」という値は、「1,009.00-4,807.00」のカテゴリーに含まれることなります。
「範囲の下限」と「範囲の上限」は、「範囲外の値」とセットで利用するパラメーターのため、この後の「範囲外の値」にて詳細を紹介します。
なお、「範囲の下限」のデフォルトは「最小値」で「範囲の上限」のデフォルトは「最大値」です。
範囲外の値では、「範囲の下限」を下回るグループと「範囲の上限」を上回るグループの扱いを指定できます。
下記のように「グループとして残す」を選択した場合、「範囲の下限」を下回るグループと、「範囲の上限」を上回るグループとして残したうえで、カテゴリーを作成します。
一方で、「取り除く」を選択すると、範囲の下限」を下回るグループと、「範囲の上限」を上回るグループをグループを除外します。
なお、除外された範囲外の値は、新しく作成したカテゴリーでは欠損値になります。なお、除外されたグループは、欠損値になります。
小数の桁数では、カテゴリーを分けるときの小数の桁数を指定します。
数値をもとに作成されたカテゴリーには順序が関係があるため、通常、「ファクター型として順序を保持する」にチェックが付いており、実行結果がFactor(順序付きカテゴリ)型で返るようになっています。
「ファクター型として順序を保持する」のチェックを外すと、内部的な順序関係を持たないCharacter型で結果が返ります。
「等頻度」は各グループに含まれる行数が等しくなるようにカテゴリーに分ける方法です。
カテゴリーのタイプに「等頻度」を選択すると、いくつかの設定メニューが表示されます。
カテゴリーの数には、作成したいカテゴリーの数を指定します。例えば、カテゴリーの数が5の時は給料を5つのグループに分けます。
ラベルでは、分けられたカテゴリーのカテゴリー名を指定することが可能です。複数のラベルを設定するときにはカンマ区切りでラベルを入力します。
「範囲の端の扱い」では、上端あるいは下端の値の含み方を指定できます。
例えば、以下の画像のように、「下端の値を含む」を選択すると、「2695.80」という値は、「2,695.80-4,228.80」のカテゴリーに含まれることなります。
一方で、以下の画像のように、「上端の値を含む」を選択すると、「2695.80」という値は、「1,009.00-2,695.80」のカテゴリーに含まれることなります。
小数の桁数では、カテゴリーを分けるときの小数の桁数を指定します。
数値をもとに作成されたカテゴリーには順序が関係があるため、通常、「ファクター型として順序を保持する」にチェックが付いており、実行結果がFactor(順序付きカテゴリ)型で返るようになっています。
「ファクター型として順序を保持する」のチェックを外すと、内部的な順序関係を持たないCharacter型で結果が返ります。
「等間隔」は数値を「同じ間隔」でカテゴリーに分ける方法です。等幅と似ている分け方ですが、カテゴリーに分けるための数値の幅を指定できる点が「等幅」とは異なります。
カテゴリーのタイプに「等頻度」を選択すると、いくつかの設定メニューが表示されます。
「間隔」ではカテゴリーに分けるための数値の幅を指定します。例えば、「間隔」に1000をすると、1000刻みでカテゴリーが分けられます。
ラベルでは、分けられたカテゴリーのカテゴリー名を指定することが可能です。複数のラベルを設定するときにはカンマ区切りでラベルを入力します。
「範囲の端の扱い」では、上端あるいは下端の値の含み方を指定できます。
例えば、以下の画像のように、「下端の値を含む」を選択すると、「11,009.00」という値は、「11,009.00-16,009.00」のカテゴリーに含まれることなります。
一方で、以下の画像のように、「上端の値を含む」を選択すると、「11,009.00」という値は、「6,009.00-11,009.00」のカテゴリーに含まれることなります。
「範囲の下限」と「範囲の上限」は、「範囲外の値」とセットで利用するパラメーターのため、この後の「範囲外の値」にて詳細を紹介します。
なお、「範囲の下限」のデフォルトは「最小値」で「範囲の上限」のデフォルトは「最大値」です。
範囲外の値では、「範囲の下限」を下回るグループと「範囲の上限」を上回るグループの扱いを指定できます。
下記のように「グループとして残す」を選択した場合、「範囲の下限」を下回るグループと、「範囲の上限」を上回るグループをグループとして残します。
一方で、「取り除く」を選択すると、範囲の下限」を下回るグループと、「範囲の上限」を上回るグループをグループを除外します。なお、除外されたグループは、欠損値になります。
小数の桁数では、カテゴリーを分けるときの小数の桁数を指定します。
数値をもとに作成されたカテゴリーには順序が関係があるため、通常、「ファクター型として順序を保持する」にチェックが付いており、実行結果がFactor(順序付きカテゴリ)型で返るようになっています。
「ファクター型として順序を保持する」のチェックを外すと、内部的な順序関係を持たないCharacter型で結果が返ります。
「手動」はカテゴリーに分ける「しきい値」を手動で決める分け方です。
「区切り値」にはカンマ区切りでカテゴリーに分けるための「しきい値」を入力します。
ラベルでは、分けられたカテゴリーのカテゴリー名を指定することが可能です。複数のラベルを設定するときにはカンマ区切りでラベルを入力します。
「範囲の端の扱い」では、上端あるいは下端の値の含み方を指定できます。
例えば、以下の画像のように、「下端の値を含む」を選択すると、「10,000」という値は、「10,000.00-15,000.00」のカテゴリーに含まれることなります。
一方で、以下の画像のように、「上端の値を含む」を選択すると、「10,000」という値は、「5,000.00-10,000.00」のカテゴリーに含まれることなります。
範囲外の値では「区切り値指」で指定した最小の「しきい値」を下回るグループと、「しきい値」の最大値を上回るグループの値の扱いを指定します。
「グループとして残す」を選択した場合、「しきい値」の最小値を下回るグループと、「しきい値」の最大値を上回るグループをグループとして残します。
一方で、「取り除く」を選択すると、「しきい値」の最小値を下回るグループと、「しきい値」の最大値を上回るグループを除外します。
なお、除外された範囲外の値は、新しく作成したカテゴリーでは欠損値になります。
小数の桁数では、カテゴリーを分けるときの小数の桁数を指定します。
数値をもとに作成されたカテゴリーには順序が関係があるため、通常、「ファクター型として順序を保持する」にチェックが付いており、実行結果がFactor(順序付きカテゴリ)型で返るようになっています。
「ファクター型として順序を保持する」のチェックを外すと、内部的な順序関係を持たないCharacter型で結果が返ります。
「外れ値」は、数値を外れ値とそれ以外のカテゴリー分ける方法です。
外れ値を検知する方法はいくつかあり、「外れ値の検知のタイプ」からはどの手法を使って、数値を外れ値とそれ以外のカテゴリー分けるかを指定します。
外れ値の検知のタイプの詳細は以下をご参考ください。
「論理条件」では条件を指定して、条件に合致する数値に対して「TRUE」を返し、条件に合致しない数値に対して「FALSE」を返します。
「演算子」には条件を指定するための「演算子」を指定します。
「値」には指定した演算子を適用する数値を指定します。