年齢データを年代(10代、20代など)のカテゴリーに変換することは、集計や分析を行う際によく必要となる作業です。Exploratoryでは、カテゴリーを作成する機能を使用することで、効率的に年齢から年代への変換を行うことができます。
年齢データを分析する際、個別の年齢値ではなく年代でグループ化して集計したいケースが多くあります。その際、「条件をもとに値を置換をまたは計算する」機能を使用して一つずつ条件を設定することも、この方法は少し手間がかかり非効率です。
「カテゴリーを作成」機能を使用することで、等間隔でのカテゴリー分けを行い、効率的に年代を作成することができます。
今回は、1行が1人の従業員を表すデータを使用して年齢から年代のカテゴリーを作成します。
なお、年齢は18歳から60歳までの範囲となっています。
年齢列のヘッダーメニューから「カテゴリーを作成」を選択します。
カテゴリーを作成のダイアログが開いたら、カテゴリーのタイプに「等間隔」を選択します。
次に、年代を正しく区切るために、以下の4つのパラメーターを適切に設定する必要があります。
間隔
年代は10歳ごとに区切られる(例:20代は20歳から29歳まで)ため、「間隔」を10に設定します。この設定により、データを10歳ごとのグループに分けることができます。
範囲の下限
この設定は最初の年代グループの開始点を決めるものです。一般的に年代は10代から始まるため、10を設定することで、最初のグループを10代として定義することができます。今回のデータでは最年少が18歳ですが、10代というグループに分類するために、範囲の下限は10に設定する必要があります。
範囲の上限
データの最高年齢が60歳であり、これを60代として分類するためには、60代のグループ(60歳から69歳)をカバーする必要があります。そのため、上限を70に設定することで、60代までの年代を適切に分類することができます。
範囲の端の扱い
デフォルトの「下の値を含む」のままにします。これは、20歳の人を「20代」に分類するために重要な設定です。「下の値を含む」に設定することで、カテゴリー名として表示される下端の値がそのグループ入ることになります。
続いて、カテゴリーの名前として、年代ごとのラベル名を設定します。
最後に「新しく列を作成」にチェックを入れて、新しい列名を「年代」と入力し「実行」ボタンをクリックします。
これにより、年齢の列の隣に年代の列が追加され、各年齢が適切な年代カテゴリーに分類されます。