脱!EDASalonやるやる詐欺!

やりたい、やる、と言いながら、なかなか手をつけていなかったEDASalonに手をつけました。 最初なので「年齢・男女別人口推移データ(難易度:普通)」に挑戦します。

Exploratory上の操作がぱっと思いつき、かつ、楽そうなことはなるべくExploratoryの操作でやるようにしました。が、どうやんのか調べるのもめんどくさくてツール外でやってしまった作業があったので、そういうのは★つけてます。 また、操作のキャプチャとるのが面倒だったので、ダイアログだけ撮っていますが、特筆していなければメニュー操作からできることでやっています。

e-Statのデータがひどいことを確認する

今回はe-Statのデータということで、なんとなくあのレイアウトのうざさは知っていました。
というわけで、まずは落としたデータをExcelにエクスポートして、全体をまずは眺めてみました。

あたま

おしり

知ってた。そうだよね。

★Exploratory内でおしりのデータを手軽に見る方法ってあるんですかね?表示する行数に-50とか指定できるかなと思ったけど、「50」「100」「200」しかなかった。

データを整える

Excelで加工して入れなおす

Excelでタイトルを作って…
おしりのゴミデータを消しました。
Exploratory、日本語だとちょいちょい動作が怪しい気がするので、なんとなく英字を採用しています。

タイトルより前の行はスキップして、加工したデータを再インポート。

★機械的にタイトルをつける、おしりのデータを消す、って、Exploratoryで効率よくササっとできるんですかね?何行目を消す、あるいは残す、みたいなのができればと思ったんですが。インポート時の先頭スキップもデータ・カタログ経由ではそういったメニューはなし。

Exploratoryで整形

事前状態

この前に2列目は消してます。いらないので。

ワイド→ロング

こうなりました

タイトルを分割

Excelでタイトルを作ったとき、年と性別を‗(アンダースコア)で区切っておいたので、それで切ります

分かれたので、それぞれの列を定義します。

こうなりました

型をととのえる

年齢

「0歳」と「100歳以上」というのがあるので、数字だけにします。「100歳以上」には100歳だけではなく、101歳以上も含まれるので、不正確にはなりますが、ここでは無視。

事前にデータ確認したときに、全角半角の混合はなかったので、そこは安心して進めます。
数値に変換します。
ちなみに、いきなり数値に変換しても大丈夫だったっぽいです。
エラーにならないのが、いいことなのかどうかは、微妙なところですね。

ちょっと迷ったけど数値型にしました

性別

変更するならfactor?
今のところは何もしなくてもいいかも。

こうなりました

分けたのでいらなくなった、「title」列も削除しています。

とりあえずヒートマップ

フィルタ機能を使って、「Both sexes」を省いて、男女別に出してみました。
10ごとだと、ちょっとわかりにくいんですが。

Loading...

1ごとにすると、わかりやすくなって、もしかしてここはあの時代…?って調べたくなってきますね。調べないけど。

Loading...

ちなみに、95歳のところだけ色が違うのは、2000年から2004年の間、90歳以上のデータは95歳にしか値が入っていないからです。
原因についてはちゃんと調べていないので予想でしかないですが、2004年までは、「90歳以上」ってひとくくりにしてたのではないかなと思います。2005年以降は、90代も1歳ごとに調べるようになったのかなと。
これってそのうち100~109歳も1歳ごとに調べるようになるんですかね。

おまけ

「Both sexes」使わないなら消せばよかったじゃない?
と思うでしょうが、ちょっとe-Statのデータ信じていいか検算したかったんです。 というわけで。

ロング→ワイド

計算

結果

差分、出てますね。

性別不明ってやつなの?と思いきや、1しかずれてない。
なんなんでしょうか…。

なんか、e-Stat的に「合計」の定義みたいなのがあるんですかね。
自分で男+女を足したデータと、ダウンロードしてきたデータに書いてある集計値と、どちらを使うのが正しいとか、あるんですかね。
知ってる人がいたら教えてください…。