「6251-38-60」のような、ハイフンで区切られた「4桁-2桁-2桁」の形式を持つデータがあったとします。

このようなデータをExploratoryにインポートした際、本来の値が消えて「欠損値(NA)」になってしまうことがあります。
本記事では、この問題が発生する理由とその解決策を解説します。
この問題は、Exploratoryのインポート時のデータ型の自動認識機能が、データの形式を「日付」であると判断することから始まります。
Exploratoryは、インポートするデータを確認し、データの形式を推測します。

「4桁-2桁-2桁」という並びは、標準的な日付形式である YYYY-MM-DD と一致するため、列のデータ型が自動的に「日付(Date)」として設定されます。
データ型が「日付」に決まると、システムはその列のすべての値を日付として処理しようとします。しかし、メッシュコードなどは地理的な区画を示す数値の羅列であり、カレンダーのルールに従っていません。
例えば、「6251-38-60」という値があったときに、システムはこれを「6251年38月60日」と解釈しようとします。
しかし、「38月」や「60日」はカレンダー上に存在しないため、日付として不整合であると判断され、日付として成立しない値は、変換プロセスにおいて「無効なデータ」とみなされます。
その結果、元の値は「欠損値(NA)」としてインポートされます。
この問題を回避するには、自動認識に頼らず、対象列を明示的に「Character(文字列)型である」と指定する必要があります。
具体的には、データのインポートダイアログで該当する列のヘッダーにあるデータ型の変更メニューをクリックして、メニューから 「Character(文字列)」 を選択します。

適用ボタンをクリックすると、値が欠損値(NA)にならず、元の「xxxx-xx-xx」の形式で表示されていることを確認できるので、そのままインポートしてください。
