2019年12月のEDAsalonは汚いと有名な日本の統計データ(e-Stats)。汚いデータをきれいにする力をつけるいい機会。
三つのデータが用意されており、今回は難易度普通と書いてあった 年齢・男女別人口推計データ をラングリングしようとイソイソとやってたら、生CSVが早速文字化けしていたので、文字化けを直す方法を書いておく。
EDFファイルで文字化けしていないものもあるので、直ぐにデータ加工・分析したい方は、そちらを使っていいと思う。
ただ、自分はまずは生データで汚さの構造を知りたいので、生CSVをみてみようと思った。そうしたら、文字化け直すに15分掛かった。
日本政府は、なぜ日本国民の生産性を下げるのか。
excelを開いて、メニューから データ > データの取得 > ファイルから > テキストまたはCSVから を選択
(下図では既にファイルを開いているが、最初はまっさらなシートです)
元のファイルのエンコードを”なし”にする
これで、文字化け無くなる。よかったよかった。
e-statはもっと改善されてほしい