Excelで行っていた作業を、Exploratoryでどのように簡単に解決していけるのかを紹介するExcelシリーズです。
今回はその中でも、「テキストデータの加工 - 置換する」について紹介をしていきます。
Excelでは文字列関数を使ってテキストデータの加工を行なっていくことになりますが、
Exploratoryでは、「テキストデータの加工」のUIを使って、直感的にテキストデータを加工していくことができます。
また、豊富な操作タイプがサポートされているため、さまざまなテキストデータの問題を簡単に解決していくことが可能です。
今回はオンラインショップの売上のデータを使用していきます。1行が1つの注文、かつ商品ごとに行が分かれているデータです。
自分がコピー機の販売担当をしているケースとして、製品サブカテゴリーを「コピー機」に絞り込んでいます。
製品名の列に注目すると「Hewlett Packard」の製品は「HP」や「Hewlett」といった文字列になっており、表記が統一されていないことがわかります。
そのため製品名の中にある「Hewlett」といった文字列を「HP」に置き換えたいです。
列ヘッダメニューから「テキストデータの加工」の「置換する」の「文字列」を選択します。
テキストデータの加工のダイアログが表示されました。
検索ボックスに「Hewlett」と指定することで、「Hewlett」の文字列が含まれる値のみが表示されます。
変換元の文字に「Hewlett」を、変換先の文字に「HP」を指定します。そうすることで、元の値の「Hewlett」という文字が太文字でハイライトされています。
プレビューボタンをクリックすると、「Hewlett」が「HP」といった文字で置き換わっていることがわかります。
「Hewlett」を「HP」に置き換えることはできましたが、他にも「Hewlett Packard」といった文字列が含まれていることがわかります。そのため、「Hewlett Packard」と「Hewlett」を同時に「HP」に置き換えたいです。
タイプに「文字列(複数の候補)」を選択します。
文字に「Hewlett Packard, Hewlett」のように、カンマ(,)区切りで置換したい文字列を複数指定します。
プレビューボタンをクリックすることで、「Hewlett Packard」と「Hewlett」を「HP」として置き換えられていることがわかります。
実行をすることで、「Hewlett Packard」と「Hewlett」を「HP」として置き換えることができ、異なる表記になっていた文字列を統一することができました。
製品名の列からブランド名を抽出することも可能です。
製品名の列から「テキストデータの加工」の「抽出する」の「最初の単語」を選択します。
抽出する単語のタイプには「最初の単語」を、区切り文字には「スペース( )」を選ぶことで、最初の単語であるブランド名を抽出できます。
ブランド名を抽出ができれば、ブランド名の列の「i」をクリックすることでどのブランドの販売数量が多いのかを確認することができます。今回のデータでは、「HP」は294件と最も多いことがわかります。