Excelで行っていた作業を、Exploratoryでどのように簡単に解決していけるのかを紹介するExcelシリーズです。
今回はその中でも、「テキストデータの加工 - 抽出する」について紹介をしていきます。
Excelでは文字列関数を使ってテキストデータの加工を行なっていくことになりますが、
Exploratoryでは、「テキストデータの加工」のUIを使って、直感的にテキストデータを加工していくことができます。
また、豊富な操作タイプがサポートされているため、さまざまなテキストデータの問題を簡単に解決していくことが可能です。
今回は日本の歴代の総理大臣のデータを使用していきます。
死去年月日の列には死亡時の年齢を表す「享年」の情報が括弧の中に含まれてしまっています。
今回は、死去年月日の文字列から括弧にある「享年」の情報を抽出して新しく列を作りたいです。
列ヘッダメニューから「テキストデータの加工」の「抽出する」の「指定した文字の中の文字列」を選択します。
テキストデータの加工のダイアログが表示されました。
開始文字と末尾文字にそれぞれ、「括弧始まり」、「括弧閉じ」を指定します。そうすることで、元の値の括弧とその中に含まれる享年の文字が太文字でハイライトされています。
プレビューボタンをクリックすると、元の値から括弧の中にある「享年」の情報を抽出することができています。しかし、開始文字と末尾文字に指定をした括弧も同時に含まれています。
今回のように開始文字と末尾文字に指定をした文字を含みたくない場合は、「指定した文字を含む」に「いいえ」を選択します。これによって、括弧を除いて89歳のように享年のみの情報を取り出すことができました。
今回は新しい列として取り出した「享年」の列を作りたいため、「新しく列を作成」にチェックをつけて列名に「享年」と指定します。
実行をすることで、死去年月日の列から「享年」の情報を抽出して、新しく列として作成できました。
しかし、享年は数値情報となりますが、データタイプが文字列(Character)型になっています。そのため、数値(Numeric)型に変換をしていきましょう。
列ヘッダメニューから「データタイプを変換」を選び、「Numeric(数値)型に変換」を選択します。
計算を作成のダイアログが表示され、計算エディタには「parse_number」といった数値のみを取り出して、数値型に変換する関数が指定されています。
そのため、そのまま実行ボタンをクリックしましょう。
これによって「享年」の列を数値(Numeric)型に変換することができました。
最後に、享年の列から「i」をクリックすることで、分布やサマリ情報を確認することが可能です。