EDA Salon 第6回 - 日本の統計データ(e-Stat)のデータラングリング大会

今月は、データラングリング(加工)をメインにしたEDASalonとします。

以下のデータセクションにリストされている3つの中から1つのデータを選んで、何らかの気付きやインサイトをチャートなどを使って可視化して、それをノートに貼ってパブリッシュして下さい。

元のデータはかなり汚いので、データラングリングしてデータをきれいにしたり整形したりする必要があります。ノートには、一つでもいいので自分が使ったデータラングリングの手法も紹介して下さい。

データ

今回は3つのデータをお題とします。

データは全てe-Statという「日本の統計が閲覧できる政府統計ポータルサイト」から取得しています。

お好きなデータを選びEDASalonに挑戦してみてください。1つでも、全て挑戦していただいても構いません!

データはデータカタログを使って簡単にインポートすることができます。

年齢・男女別人口推移データ(難易度:普通)

国勢調査による人口を基に、年齢や男女別の人口を推計したデータです。

データの期間は平成12年から27年まであります。

データはこちらからダウンロードすることができます。

趣味・娯楽の種類別行動者率データ(難易度:難しい)

生活時間の配分や余暇時間における主な活動(学習・自己啓発・訓練,ボランティア活動,スポーツ,趣味・娯楽及び旅行・行楽)を調査した社会生活基本調査です。

データは平成28年の調査結果となります。

データはこちらからダウンロードすることができます。

犯罪統計データ(難易度:かなり難しい)

犯罪統計規則に基づき、全国の都道府県警察から報告された資料により作成されたデータです。

データは平成30年をメインとしていますが、前年との比較のため平成29年のデータもあります。

データはこちらからダウンロードすることができます。

元のデータはExcel形式のため、複数のシートがあり、シートによってデータの種類が異なります。 興味のある方は、オリジナルのデータをインポートしてみてください。

データラングリングに関するノート

データラングリングをするにあたって、参考になるノートは、こちらをご覧ください。

EDA Salonへの参加方法

Exploratoryでデータを可視化したり、分析したら、それをノートに簡単にまとめて、「EDASalon」というタグ付きでパブリッシュしてみて下さい!

EDA Salonへの参加方法の詳細は下記をご覧ください。

Exploratoryをまだ持っていない方

Exploratoryをまだお持ちでない方は、フルバージョンを30日間の無料トライアルで試すか、パブリックバージョン(Exploratory Public)を無料で使うことができるのでぜひサインアップしてみてください。