条件を元に計算、または値を置き換えるの機能を使うことで、数値列に対して条件を元にいくつかのセグメントに分けるなど、さまざまな処理を行うことが可能です。
v10の新機能として、条件を元に計算で新しい値のデータ型の自動検知機能や指定する機能が追加されました。
今回は新しい「条件を元に計算」の使い方について紹介します。
複雑な条件に基づいてデータをセグメント化する必要がある。
セグメント化した結果に適切なデータ型を割り当てる必要がある。
セグメントの順序を意味のある方法で維持したい。
Airbnbの東京の宿泊施設データを使用します。各行が1つの宿泊施設を表し、列には住所や1泊の価格などの情報が含まれています。
一泊の価格列から「値を置き換える」の「条件を指定」を選択します。
条件を元に計算、または値を置き換えるのダイアログが表示されます。
条件とそれぞれの返す値(セグメント)には以下のように設定したいです。
条件のプラスボタンをクリックします。
条件には以下のように設定します。
新しい値には「高」と文字を入力します。
同様にして、2つ目の条件を作ります。今回の条件は一泊の価格が「10,000以上」の時には「中」の値を返すようにします。
デフォルト(10,000未満の値)には、新しい値に「低」と設定します。
データ型のデフォルトは「自動検出」になっているため、新しい値に合わせたデータ型を自動的に検出するようになっています。
今回のセグメントのように、値に対して順序がある場合はデータ型に「Factor(順序付き文字列)」を選択します。
実行することで、新しく「セグメント」列が作成されたことが確認できます。
作成したセグメントの値の順序はデフォルトは「上から下」のため、「高、中、低」の順番になっていますが、「低、中、高」の順序にしたい場合は、順序をつける方向を「下から上」に変更します。
これにより、セグメントを「低、中、高」の順序で表示することができるようになりました。