4桁-2桁-2桁(xxxx-xx-xx)のような形式の文字列のデータをインポートするデータが欠損値になってしまうときの対処法

「6251-38-60」のような、ハイフンで区切られた「4桁-2桁-2桁」の形式を持つデータがあったとします。

このようなデータをExploratoryにインポートした際、本来の値が消えて「欠損値(NA)」になってしまうことがあります。

本記事では、この問題が発生する理由とその解決策を解説します。

なぜ欠損値(NA)になってしまうのか

この問題は、Exploratoryのインポート時のデータ型の自動認識機能が、データの形式を「日付」であると判断することから始まります。

1. 日付フォーマットへの自動認識

Exploratoryは、インポートするデータを確認し、データの形式を推測します。

「4桁-2桁-2桁」という並びは、標準的な日付形式である YYYY-MM-DD と一致するため、列のデータ型が自動的に「日付(Date)」として設定されます。

2. 日付としての妥当性チェックの失敗

データ型が「日付」に決まると、システムはその列のすべての値を日付として処理しようとします。しかし、メッシュコードなどは地理的な区画を示す数値の羅列であり、カレンダーのルールに従っていません。

例えば、「6251-38-60」という値があったときに、システムはこれを「6251年38月60日」と解釈しようとします。

しかし、「38月」や「60日」はカレンダー上に存在しないため、日付として不整合であると判断され、日付として成立しない値は、変換プロセスにおいて「無効なデータ」とみなされます。

その結果、元の値は「欠損値(NA)」としてインポートされます。

解決策:インポート時にデータ型を「文字列」に指定する

この問題を回避するには、自動認識に頼らず、対象列を明示的に「Character(文字列)型である」と指定する必要があります。

具体的には、データのインポートダイアログで該当する列のヘッダーにあるデータ型の変更メニューをクリックして、メニューから 「Character(文字列)」 を選択します。

適用ボタンをクリックすると、値が欠損値(NA)にならず、元の「xxxx-xx-xx」の形式で表示されていることを確認できるので、そのままインポートしてください。

Export Chart Image
Output Format
PNG SVG
Background
Set background transparent
Size
Width (Pixel)
Height (Pixel)
Pixel Ratio