今回は売上データを使用していきます。
このデータの列にはProduct IDの列があります。
Product IDには3つの情報がまとめられています。
例えば、FURはFurniture(家具)、CHはChair(家具)、4655は製品型番を表します。
つまり、最初の3文字がカテゴリー、次の文字がサブカテゴリー、最後の4文字が製品型番の情報になります。
そのため、最初から3文字目までを取り出してカテゴリーの列を作りたいです。
Product IDの列ヘッダーメニューからテキストデータの加工(UI) の抽出するを選択します。
テキストデータの加工のダイアログが表示されます。
抽出のタイプに指定した範囲のテキストを選択します。
開始に1を、末尾に3を入力します。
プレビューボタンをクリックすると、最初から3文字、つまりカテゴリーが抽出されていることが確認できます。
新しく列を作成にチェックをし、任意の列名を入力して実行します。
Product IDから最初の3文字のカテゴリーの情報を取り出すことができました。
サマリ・ビューをみるとCategoryではOFF(オフィス用品)が最も多いようです。
次に、製品型番の列を作りたいため、最後から4文字取り出したいとします。
Product IDの列ヘッダーメニューからテキストデータの加工(UI) の抽出するを選択します。
抽出のタイプに指定した範囲のテキストを選択します。
開始に6を、末尾に9を指定します。
プレビューボタンをクリックすると、製品型番の情報を抽出できているように見えます。
しかし、サブカテゴリーの文字列の長さが違う場合に、最後の4文字をうまく抽出できていないようです。
サブカテゴリーがアートの場合、”ART”と3文字になっているため、最後の4文字が取得できていません。
最後から文字を取り出したい場合、マイナスを使うことができ、最後から1文字目を-1、最後から2文字目を-2になります。
そのため、開始に-4を末尾に-1を指定することで、最後から4文字を抽出できます。
開始に -4を、末尾に -1を指定します。
プレビューボタンをクリックすると、最後から4文字の製品型番の情報を抽出できています。
新しく列を作成にチェックをし、任意の列名を入力して実行します。
Product IDから最後の4文字の製品型番の情報を取り出すことができました。