このノートでは、文字列を全角または半角などを統一することができる「文字の標準化」の機能について紹介します。
文字の標準化では、下記のルールで変換されるようになっています。
もし、全角や半角のどちらかを指定して統一したい場合には、「全角/半角」というメニューがあるため、そちらから行うことが可能です。
今回はその中でもよくあるケースとして、半角のカタカナを全角に、数字の全角を半角に統一するケースをご紹介します。
今回は顧客情報のデータを使用していきます。
このデータは1行が1ユーザーで、 ユーザーの住む都道府県や年齢の列があります。
都道府県名(カナ)をみると、半角カナと全角カナが混在しています。
例えば、「集計テーブル」で都道府県名(カナ)を使って、ユーザーの数(行数)を確認したいとします。
チャートタイプに「集計テーブル」を選択します。
グループ化に都道府県コード、都道府県名(カナ)を選び、値には(行の数)を選択します。
都道府県名(カナ)が半角か全角かの違いによって別々の文字列として認識されています。
そのため、半角と全角が混在する文字列を全角に統一したいというのが今回やりたいことです。
列ヘッダメニューから「テキストデータの加工」 の「変換する」の「文字列の標準化(全角/半角の統一など)」を選択します。
テキストを変換のダイアログが表示されます。
プレビューをクリックすると、半角カナが全角カナに変換されています。
半角カナを全角カナに統一することができました。
先ほど作成したチャートに戻り、チャートピンを最新のステップに紐付けます。
半角と全角が混在していた時には、"ホッカイドウ"と"ホッカイドウ"を別々の文字列として認識していましたが、「文字列の標準化(全角/半角の統一など)」を使って全角に統一することで同じ文字列をまとめることができました。
次に、年齢の列のデータタイプがキャラクター型になっているため数値型にしたいです。
列ヘッダメニューから「データタイプを変換」の「数値タイプに変換」を選択して実行します。
いくつかの行が欠損値になっているようです。
元々この列に欠損値はなかったのですが、数値に変換したところ欠損値になってしまいました。
理由としては、変換する前の値に全角の数字(45)が混ざっていたからです。全角の数字では変換した時に数字と認識されずに欠損値になってしまいます。
そのため、全角の数字を半角の数字に変換にする必要があります。
数値に変換する前のステップを選択します。
列ヘッダメニューから「テキストデータの加工」 の「変換する」の「文字列の標準化(全角/半角の統一など)」を選択します。
プレビューボタンをクリックすると、全角の数字が半角に変換されています。
実行すると、半角の数字に統一することができました。
データタイプを変換したステップに移動します。
数字を半角に統一することで、欠損値なく数値に変換することができました。
今回ご紹介したように、文字列に半角や全角が混在していると「別々の文字列として認識されてしまう」や「数値に変換した時に全角の数字が欠損値になる」といった問題があります。
もし、半角と全角が混在した文字列に遭遇したときは「テキストデータの加工」の「変換する」から「文字列の標準化(全角/半角の統一など)」または「全角/半角」をお試しください!