データをインポートした時に値が欠損値になってしまう時の対処法

Exploratoryでは、CSVやExcelファイルなどをインポートする時に、データ型の自動認識機能により列の値に合わせて自動的にデータタイプが識別されるようになっています。

このインポートダイアログでは、最初の1000行をサンプリングしてプレビューを表示します。このサンプリングに基づいてデータ型の自動認識した結果が表示されていますが、最初の1000行がすべて欠損値である場合、その列はロジカル型として認識されてしまいます。

しかし、インポート実行時には再度データ型の自動認識処理が実行されるため、列に値が含まれている場合はその値に合わせてデータタイプが識別されます。

下記の例では、インポートダイアログの時点ではロジカル型になっていた「郵便番号」は数値型に、地域の列は「文字列型」に変わっていることがわかります。

上記のことから、インポート後でもロジカル型になってしまう場合は、その列の値はすべて欠損値であるということになります。

もし確認をしたい場合は、インポートダイアログ上で本来あるべきデータタイプを直接指定します。

その上でデータをインポートしたとしても、その列の値はすべて欠損値であることがわかります。

補足として、複数のCSVファイルをインポート&マージをした時に、1つ目のファイルは該当列の値が全て欠損値、2つ目のファイルは値が入っていたとします。その場合は、インポート&マージをした後にデータ型の自動認識機能が適用されるために、データタイプを固定化させたいといったニーズがなければ、個別のデータタイプ指定は不要です。

Export Chart Image
Output Format
PNG SVG
Background
Set background transparent
Size
Width (Pixel)
Height (Pixel)
Pixel Ratio