Excelで行っていた作業を、Exploratoryでどのように簡単に解決していけるのかを紹介するExcelシリーズです。
今回はその中でも、「テキストデータの加工 - 取り除く」について紹介をしていきます。
Excelでは文字列関数を使ってテキストデータの加工を行なっていくことになりますが、
Exploratoryでは、「テキストデータの加工」のUIを使って、直感的にテキストデータを加工していくことができる。
また、豊富な操作タイプがサポートされているため、さまざまなテキストデータの問題を簡単に解決していくことが可能です。
今回はユニコーン企業のデータを使用していきます。
投資家の列にある「Softbank」に注目をしてみると、「Softbank Group」や「Softbank Corp」といった文字列になっていることがわかります。
Softbank GroupのGroupの文字を取り除いて、Softbankにしていきたいです。
列ヘッダメニューから「テキストデータの加工」の「取り除く」の「文字列」を選択します。
テキストデータの加工のダイアログが表示されました。
検索ボックスに「softbank」と指定することで、「softbank」の文字列が含まれる値のみが表示されます。
「Softbank Group」の「Group」の文字を取り除いて、Softbankにしたいです。
文字に「Group」を指定します。そうすることで、元の値のGroupという文字が太文字でハイライトされています。
プレビューボタンをクリックすると、Groupを取り除いてSoftbankになっていることがわかります。
ちなみに、「大文字・小文字を無視する」のオプションが適用されていたために、「group」といった先頭が全て小文字のものでも文字列が一緒なので取り除かれていました。
「大文字・小文字を無視する」のチェックを外すと、「文字」に指定したものと完璧にマッチしない限り、取り除かれないようになっています。
今回は文字列さえ一致していれば大文字・小文字は関係なしに取り除きたいため、「大文字・小文字を無視する」にチェックをつけます。
Groupの文字列は取り除くことができましたが、「Corp」や「Capital」といった文字列も一緒に取り除きたいです。
タイプに「文字列(複数の候補)」を選択します。
文字に「Croup, Corp, Capital」のように、カンマ(,)区切りで取り除きたい文字列を複数指定します。
プレビューボタンをクリックすることで、新しい値を「Softbank」としてきれいに整えることができました。
実行をすることで、「Group」や「Corp」などの文字列を取り除き、「Softbank」のようにきれいに整えることができました。
投資家の列の「i」をクリックすることで、「Softbank」が投資した企業数は31件あることがわかります。