やりたい、やる、と言いながら、なかなか手をつけていなかったEDASalonに手をつけました。 最初なので「年齢・男女別人口推移データ(難易度:普通)」に挑戦します。
Exploratory上の操作がぱっと思いつき、かつ、楽そうなことはなるべくExploratoryの操作でやるようにしました。が、どうやんのか調べるのもめんどくさくてツール外でやってしまった作業があったので、そういうのは★つけてます。 また、操作のキャプチャとるのが面倒だったので、ダイアログだけ撮っていますが、特筆していなければメニュー操作からできることでやっています。
今回はe-Statのデータということで、なんとなくあのレイアウトのうざさは知っていました。
というわけで、まずは落としたデータをExcelにエクスポートして、全体をまずは眺めてみました。
知ってた。そうだよね。
★Exploratory内でおしりのデータを手軽に見る方法ってあるんですかね?表示する行数に-50とか指定できるかなと思ったけど、「50」「100」「200」しかなかった。
Excelでタイトルを作って…
おしりのゴミデータを消しました。
Exploratory、日本語だとちょいちょい動作が怪しい気がするので、なんとなく英字を採用しています。
タイトルより前の行はスキップして、加工したデータを再インポート。
★機械的にタイトルをつける、おしりのデータを消す、って、Exploratoryで効率よくササっとできるんですかね?何行目を消す、あるいは残す、みたいなのができればと思ったんですが。インポート時の先頭スキップもデータ・カタログ経由ではそういったメニューはなし。
この前に2列目は消してます。いらないので。
こうなりました
Excelでタイトルを作ったとき、年と性別を‗(アンダースコア)で区切っておいたので、それで切ります
分かれたので、それぞれの列を定義します。
こうなりました
「0歳」と「100歳以上」というのがあるので、数字だけにします。「100歳以上」には100歳だけではなく、101歳以上も含まれるので、不正確にはなりますが、ここでは無視。
事前にデータ確認したときに、全角半角の混合はなかったので、そこは安心して進めます。
数値に変換します。
ちなみに、いきなり数値に変換しても大丈夫だったっぽいです。
エラーにならないのが、いいことなのかどうかは、微妙なところですね。
ちょっと迷ったけど数値型にしました
変更するならfactor?
今のところは何もしなくてもいいかも。
分けたのでいらなくなった、「title」列も削除しています。
フィルタ機能を使って、「Both sexes」を省いて、男女別に出してみました。
10ごとだと、ちょっとわかりにくいんですが。
1ごとにすると、わかりやすくなって、もしかしてここはあの時代…?って調べたくなってきますね。調べないけど。
ちなみに、95歳のところだけ色が違うのは、2000年から2004年の間、90歳以上のデータは95歳にしか値が入っていないからです。
原因についてはちゃんと調べていないので予想でしかないですが、2004年までは、「90歳以上」ってひとくくりにしてたのではないかなと思います。2005年以降は、90代も1歳ごとに調べるようになったのかなと。
これってそのうち100~109歳も1歳ごとに調べるようになるんですかね。
「Both sexes」使わないなら消せばよかったじゃない?
と思うでしょうが、ちょっとe-Statのデータ信じていいか検算したかったんです。 というわけで。
差分、出てますね。
性別不明ってやつなの?と思いきや、1しかずれてない。
なんなんでしょうか…。
なんか、e-Stat的に「合計」の定義みたいなのがあるんですかね。
自分で男+女を足したデータと、ダウンロードしてきたデータに書いてある集計値と、どちらを使うのが正しいとか、あるんですかね。
知ってる人がいたら教えてください…。