こちらのノートでは「テキストデータを加工する」方法を紹介いたします。
「テキストデータの加工」はカテゴリー型(Character型やFactor型)の列においてのみ表示されるメニューです。
「テキストデータの加工」にマウスカーソルを合わせるといくつかのメニューが表示されます。
「テキストデータの加工」の下で表記される以下のメニューを選択すると、さらに細かいサブメニューが提供されています。
上記のメニューを選択すると、各テキストデータの加工方法に紐付くサブメニューが表示されます。下記は「取り除く」にマウスカーソルを重ねたときの例です。
「URL/Emailを操作」を除く「取り除く/置換する/抽出する/変換する」以外のメニューではサブメニューは表示されませんが、いくつかのメニューは「変換する」を選択したときに表示されるダイアログと同じものが表示されます。
ここからは、「取り除く/置換する/抽出する」、「変換する」、「それ以外のメニュー」に分けて、各機能を簡単に紹介します。
「テキストデータの加工」の「取り除く」「置換する」「抽出する」のいずれかのサブメニューから、実行したい処理を選択します。
すると、「テキストデータの加工」のダイアログが表示されます。
「テキストデータの加工」のダイアログでは、選択したメニューにもとづき、「操作タイプ」が選択され、選択したサブメニューをもとに、各操作タイプに紐付くメニューが選択されます。
なお、このダイアログの中で、「操作タイプ」やその操作タイプにひもづく「サブメニュー」を後から選択することも可能です。
テキストデータの加工のダイアログの右上には、「空白、タブ、改行文字を表示」のオプションのチェックボックスが表示されています。
デフォルトではチェックが付いており、「元の値」や「新しい値」に含まれる「空白、タブ、改行文字」が記号で表示されます。
また、ダイアログの右上の検索窓にテキストをタイプし、特定の文字列を含む値のみのプレビューを確認することも可能です。
なお、画面のプレビューボタンをクリックすることで、元の値と、ダイアログの左側で設定した操作結果による新しい値を確認することが可能です。
「位置」では、設定した処理内容を適用する箇所の指定が可能です。デフォルトでは「指定しない」にチェックがついています。
例えば、以下の例は元の値から「Group」という単語を取り除く設定です。
「位置」に「先頭」を指定している場合、先頭にGroupという文字列がついている元の値はないため、Groupという文字列を含む値であっても、Groupが取り除かれません。
一方で末尾につくGroupという文字列に対してのみ処理をしたいときには、位置に「末尾」を指定するわけです。
「大文字・小文字を無視する」オプションでは、入力したテキストに対して、「大文字・小文字を無視する」かどうかを指定します。
デフォルトの設定ではチェックが付いており、入力したテキストに対して、「大文字・小文字を無視する」設定になっています。
例えば、以下の例では、「大文字・小文字を無視する」にチェックがついているので、大文字・小文字に関係なく「Group」や「group」という単語が取り除かれています。
一方で、「大文字・小文字を無視する」のチェックを外すと、以下のように、大文字・小文字が完全に一致する、「Group」のみが取り除かれるわけです。
「余計な空白を取り除く」では設定した処理による生じる余計な空白を取り除くかどうかを設定します。
例えば、上記は「Group」という単語を取る例ですが、プレビューの1行目の元の値は「Softbank Group」です。
ここから「Group」という文字列を取り除いた場合、新しい値は「Softbank」の後に、余計な半角のスペースが残るはずですが、「余計な空白を取り除く」にチェックが付いていることで、こういった余計な空白が取り除かれるわけです。
元の値から任意のテキストを取り除きたいときには「取り除く」メニューを選択します。
例えば、以下は、「取り除く」のサブメニューから「文字列」を選択して、「Softbank」という文字列を取り除いた例です。
なお、取り除く対象は、操作タイプの下のプルダウンメニューから、後から変更することが可能です。
文字列を取り除く機能の詳細は以下のリンクから確認いただけますので、ご参考ください。
元の値に含まれるテキストを、任意のテキストに置換したいときには、「置換する」メニューを選択します。
例えば、以下は「置換する」のサブメニューから「文字列」を選択して、「tech」という文字列を「technology」置換した例です。
なお、置換する対象は操作タイプの下のプルダウンメニューから、後から変更することが可能です。
文字列を置換する機能の詳細は以下のリンクから確認いただけますので、ご参考ください。
元の値に含まれるテキストから任意のテキストを抽出したいときには、「抽出する」メニューを選択します。
例えば、以下は「死去年月日」列から「抽出する」のサブメニューから「指定した文字の中の文字列」を選択して、括弧内のテキスト(年齢)を抽出した例です。
なお、抽出する対象は、操作タイプの下のプルダウンメニューから、後から変更することが可能です。
文字列を抽出する機能は以下のリンクから確認いただけますので、ご参考ください。
元の値の文字列を特定の文字列に変換したいときには「変換する」メニューを選択します。
例えば、以下は「業界」列のカテゴリーを「Title Case(タイトルケース)」に変換する例です。(タイトルケースとは全ての単語の先頭だけを大文字で表した記法です)
なお変換する対象は、操作タイプの下のプルダウンメニューから、後から変更することが可能です。
文字列を変換する機能の詳細は以下のリンクから確認いただけますので、ご参考ください。
取り除く/置換する/抽出する/変換する以外にも、テキストデータの加工に関する様々なメニューを用意しています。
以下にいくつかの機能の詳細を確認いただけるリンクがあます。
こちらの情報は随時アップデートしていく予定です。