カテゴリーを作成する方法

このノートでは数値からカテゴリーを作成する方法を紹介します。

数値型の列からカテゴリーを作成するには列ヘッダーメニューの「カテゴリーを作成」を選択します。

「カテゴリーを作成」するダイアログが表示されたら、「カテゴリーの設定」から数値データからカテゴリーを作成するための処理のタイプを選択することが可能です。

等幅

「等幅」は数値を「同じ幅」でカテゴリー(グループ)に分ける方法です。

カテゴリーのタイプに「等幅」を選択すると、いくつかの設定メニューが表示されます。

カテゴリーの数

カテゴリーの数には、作成したいカテゴリーの数を指定します。例えば、カテゴリーの数が「10」の時は給料を10のグループに分けます。

ラベル(オプショナル)

ラベルでは、分けられたカテゴリーのカテゴリー名を指定することが可能です。複数のラベルを設定するときにはカンマ区切りでラベルを入力します。

 0を中央にする

通常は、値の最小値を基点にカテゴリーが作成されます。

「0を中央する」にチェックを付けてプレビューをクリックすると、以下のように0が中央になるようにカテゴリーが分けられます。

範囲の端の扱い

「範囲の端の扱い」では、上端あるいは下端の値の含み方を指定できます。

例えば、以下の画像のように、「下端の値を含む」を選択すると、「4807」という値は、「4,807.00-8,605.00」のカテゴリーに含まれることなります。

一方で、以下の画像のように、「上端の値を含む」を選択すると、「4807」という値は、「1,009.00-4,807.00」のカテゴリーに含まれることなります。

範囲の下限/上限

「範囲の下限」と「範囲の上限」は、「範囲外の値」とセットで利用するパラメーターのため、この後の「範囲外の値」にて詳細を紹介します。

なお、「範囲の下限」のデフォルトは「最小値」で「範囲の上限」のデフォルトは「最大値」です。 

範囲外の値

範囲外の値では、「範囲の下限」を下回るグループと「範囲の上限」を上回るグループの扱いを指定できます。

下記のように「グループとして残す」を選択した場合、「範囲の下限」を下回るグループと、「範囲の上限」を上回るグループとして残したうえで、カテゴリーを作成します。

一方で、「取り除く」を選択すると、範囲の下限」を下回るグループと、「範囲の上限」を上回るグループをグループを除外します。

なお、除外された範囲外の値は、新しく作成したカテゴリーでは欠損値になります。なお、除外されたグループは、欠損値になります。

小数の桁数

小数の桁数では、カテゴリーを分けるときの小数の桁数を指定します。

ファクター型として順序を保持する

数値をもとに作成されたカテゴリーには順序が関係があるため、通常、「ファクター型として順序を保持する」にチェックが付いており、実行結果がFactor(順序付きカテゴリ)型で返るようになっています。

「ファクター型として順序を保持する」のチェックを外すと、内部的な順序関係を持たないCharacter型で結果が返ります。 

等頻度(分位数)

「等頻度」は各グループに含まれる行数が等しくなるようにカテゴリーに分ける方法です。

カテゴリーのタイプに「等頻度」を選択すると、いくつかの設定メニューが表示されます。

カテゴリーの数

カテゴリーの数には、作成したいカテゴリーの数を指定します。例えば、カテゴリーの数が5の時は給料を5つのグループに分けます。

ラベル(オプショナル)

ラベルでは、分けられたカテゴリーのカテゴリー名を指定することが可能です。複数のラベルを設定するときにはカンマ区切りでラベルを入力します。

範囲の端の扱い

「範囲の端の扱い」では、上端あるいは下端の値の含み方を指定できます。

例えば、以下の画像のように、「下端の値を含む」を選択すると、「2695.80」という値は、「2,695.80-4,228.80」のカテゴリーに含まれることなります。

一方で、以下の画像のように、「上端の値を含む」を選択すると、「2695.80」という値は、「1,009.00-2,695.80」のカテゴリーに含まれることなります。

小数の桁数

小数の桁数では、カテゴリーを分けるときの小数の桁数を指定します。

ファクター型として順序を保持する

数値をもとに作成されたカテゴリーには順序が関係があるため、通常、「ファクター型として順序を保持する」にチェックが付いており、実行結果がFactor(順序付きカテゴリ)型で返るようになっています。

「ファクター型として順序を保持する」のチェックを外すと、内部的な順序関係を持たないCharacter型で結果が返ります。

等間隔

「等間隔」は数値を「同じ間隔」でカテゴリーに分ける方法です。等幅と似ている分け方ですが、カテゴリーに分けるための数値の幅を指定できる点が「等幅」とは異なります。

カテゴリーのタイプに「等頻度」を選択すると、いくつかの設定メニューが表示されます。

間隔

「間隔」ではカテゴリーに分けるための数値の幅を指定します。例えば、「間隔」に1000をすると、1000刻みでカテゴリーが分けられます。

ラベル(オプショナル)

ラベルでは、分けられたカテゴリーのカテゴリー名を指定することが可能です。複数のラベルを設定するときにはカンマ区切りでラベルを入力します。

範囲の端の扱い

「範囲の端の扱い」では、上端あるいは下端の値の含み方を指定できます。

例えば、以下の画像のように、「下端の値を含む」を選択すると、「11,009.00」という値は、「11,009.00-16,009.00」のカテゴリーに含まれることなります。

一方で、以下の画像のように、「上端の値を含む」を選択すると、「11,009.00」という値は、「6,009.00-11,009.00」のカテゴリーに含まれることなります。

範囲の下限/上限

「範囲の下限」と「範囲の上限」は、「範囲外の値」とセットで利用するパラメーターのため、この後の「範囲外の値」にて詳細を紹介します。

なお、「範囲の下限」のデフォルトは「最小値」で「範囲の上限」のデフォルトは「最大値」です。

範囲外の値

範囲外の値では、「範囲の下限」を下回るグループと「範囲の上限」を上回るグループの扱いを指定できます。

下記のように「グループとして残す」を選択した場合、「範囲の下限」を下回るグループと、「範囲の上限」を上回るグループをグループとして残します。

一方で、「取り除く」を選択すると、範囲の下限」を下回るグループと、「範囲の上限」を上回るグループをグループを除外します。なお、除外されたグループは、欠損値になります。

小数の桁数

小数の桁数では、カテゴリーを分けるときの小数の桁数を指定します。

ファクター型として順序を保持する

数値をもとに作成されたカテゴリーには順序が関係があるため、通常、「ファクター型として順序を保持する」にチェックが付いており、実行結果がFactor(順序付きカテゴリ)型で返るようになっています。

「ファクター型として順序を保持する」のチェックを外すと、内部的な順序関係を持たないCharacter型で結果が返ります。

手動

「手動」はカテゴリーに分ける「しきい値」を手動で決める分け方です。

区切り値

「区切り値」にはカンマ区切りでカテゴリーに分けるための「しきい値」を入力します。

ラベル(オプショナル)

ラベルでは、分けられたカテゴリーのカテゴリー名を指定することが可能です。複数のラベルを設定するときにはカンマ区切りでラベルを入力します。

範囲の端の扱い

「範囲の端の扱い」では、上端あるいは下端の値の含み方を指定できます。 

例えば、以下の画像のように、「下端の値を含む」を選択すると、「10,000」という値は、「10,000.00-15,000.00」のカテゴリーに含まれることなります。

一方で、以下の画像のように、「上端の値を含む」を選択すると、「10,000」という値は、「5,000.00-10,000.00」のカテゴリーに含まれることなります。

範囲外の値

範囲外の値では「区切り値指」で指定した最小の「しきい値」を下回るグループと、「しきい値」の最大値を上回るグループの値の扱いを指定します。

「グループとして残す」を選択した場合、「しきい値」の最小値を下回るグループと、「しきい値」の最大値を上回るグループをグループとして残します。

一方で、「取り除く」を選択すると、「しきい値」の最小値を下回るグループと、「しきい値」の最大値を上回るグループを除外します。

なお、除外された範囲外の値は、新しく作成したカテゴリーでは欠損値になります。

小数の桁数

小数の桁数では、カテゴリーを分けるときの小数の桁数を指定します。 

ファクター型として順序を保持する

数値をもとに作成されたカテゴリーには順序が関係があるため、通常、「ファクター型として順序を保持する」にチェックが付いており、実行結果がFactor(順序付きカテゴリ)型で返るようになっています。

「ファクター型として順序を保持する」のチェックを外すと、内部的な順序関係を持たないCharacter型で結果が返ります。

外れ値

「外れ値」は、数値を外れ値とそれ以外のカテゴリー分ける方法です。

外れ値の検知のタイプ

外れ値を検知する方法はいくつかあり、「外れ値の検知のタイプ」からはどの手法を使って、数値を外れ値とそれ以外のカテゴリー分けるかを指定します。

外れ値の検知のタイプの詳細は以下をご参考ください。

  • 給料が異常に高いまたは低い(外れ値)従業員にラベルをつける方法 - リンク

K-Meansクラスタリング

K-Meansクラスタリング」は、「教師なし学習」のアルゴリズムであるK-Meansクラスタリングを使って、数値をカテゴリー分ける方法です。

カテゴリーの数

カテゴリーの数には、作成したいカテゴリーの数を指定します。例えば、カテゴリーの数が3の時は給料をK-Meansクラスタリングを使って3つのグループに分けることになるわけです。

論理的条件(TRUE/FALSE)

「論理条件」では条件を指定して、条件に合致する数値に対して「TRUE」を返し、条件に合致しない数値に対して「FALSE」を返します。

演算子

「演算子」には条件を指定するための「演算子」を指定します。

 

「値」には指定した演算子を適用する数値を指定します。

 

 

 

Export Chart Image
Output Format
PNG SVG
Background
Set background transparent
Size
Width (Pixel)
Height (Pixel)
Pixel Ratio