CSVの文字化けを直す方法

目的

2019年12月のEDAsalonは汚いと有名な日本の統計データ(e-Stats)。汚いデータをきれいにする力をつけるいい機会。

三つのデータが用意されており、今回は難易度普通と書いてあった 年齢・男女別人口推計データ をラングリングしようとイソイソとやってたら、生CSVが早速文字化けしていたので、文字化けを直す方法を書いておく。

生CSVの必要性

EDFファイルで文字化けしていないものもあるので、直ぐにデータ加工・分析したい方は、そちらを使っていいと思う。

ただ、自分はまずは生データで汚さの構造を知りたいので、生CSVをみてみようと思った。そうしたら、文字化け直すに15分掛かった。

日本政府は、なぜ日本国民の生産性を下げるのか。

生csvデータの文字化けを直す手順

excelを開いて、メニューから データ > データの取得 > ファイルから > テキストまたはCSVから  を選択

(下図では既にファイルを開いているが、最初はまっさらなシートです)

元のファイルのエンコードを”なし”にする

これで、文字化け無くなる。よかったよかった。

まとめ

e-statはもっと改善されてほしい