今回は、Airbnbの東京の宿泊施設データを使用します。
このデータには住所の列があります。
住所はコンマ(,) で区切られて情報が格納されています。
今回は2番目にある渋谷区の情報を抽出したいです。
住所の列の列ヘッダメニューからテキストデータの加工 (UI) を選び、抽出するを選択します。
テキストデータの加工のダイアログが表示されます。
抽出のタイプにN番目の単語(2番目、3番目等) を選択します。
〇〇区の情報を抽出したいので、N番目に2を入力し、セパレータにコンマを選択します。
プレビュー画面にある元の値の列をみると、マッチする箇所が太文字で表示されています。これにより、抽出対象の単語がすぐに確認できますね!
プレビューボタンをクリックすると、新しい値に2番目の単語である〇〇区が抽出されています。
新しく列を作成にチェックして列名を入力したら実行します。
住所の列の2番目にある単語の〇〇区を抽出することができました。
次に、住所の列から郵便番号を抽出したいとします。
しかし、今回のデータは区までのデータしかないものがあります。そのため、3番目か4番目のどちらを選べばいいのでしょうか。
その場合、最後の単語を選ぶことで郵便番号を抽出できます。
住所の列の列ヘッダメニューからテキストデータの加工(UI) を選び、抽出するを選択します。
抽出する方法に最後の単語を選び、セパレータにコンマを選択します。
プレビューボタンをクリックして新しい値を確認すると、最後の単語である郵便番号を取得できています。
新しく列を作成にチェックをして列名を入力したら実行します。
住所の列から最後の単語の郵便番号を抽出することができました。
ちなみに、最初の単語を抽出することもできます。