今月は、データラングリング(加工)をメインにしたEDASalonとします。
以下のデータセクションにリストされている3つの中から1つのデータを選んで、何らかの気付きやインサイトをチャートなどを使って可視化して、それをノートに貼ってパブリッシュして下さい。
元のデータはかなり汚いので、データラングリングしてデータをきれいにしたり整形したりする必要があります。ノートには、一つでもいいので自分が使ったデータラングリングの手法も紹介して下さい。
今回は3つのデータをお題とします。
データは全てe-Statという「日本の統計が閲覧できる政府統計ポータルサイト」から取得しています。
お好きなデータを選びEDASalonに挑戦してみてください。1つでも、全て挑戦していただいても構いません!
データはデータカタログを使って簡単にインポートすることができます。
国勢調査による人口を基に、年齢や男女別の人口を推計したデータです。
データの期間は平成12年から27年まであります。
データはこちらからダウンロードすることができます。
生活時間の配分や余暇時間における主な活動(学習・自己啓発・訓練,ボランティア活動,スポーツ,趣味・娯楽及び旅行・行楽)を調査した社会生活基本調査です。
データは平成28年の調査結果となります。
データはこちらからダウンロードすることができます。
犯罪統計規則に基づき、全国の都道府県警察から報告された資料により作成されたデータです。
データは平成30年をメインとしていますが、前年との比較のため平成29年のデータもあります。
データはこちらからダウンロードすることができます。
元のデータはExcel形式のため、複数のシートがあり、シートによってデータの種類が異なります。 興味のある方は、オリジナルのデータをインポートしてみてください。
データラングリングをするにあたって、参考になるノートは、こちらをご覧ください。
Exploratoryでデータを可視化したり、分析したら、それをノートに簡単にまとめて、「EDASalon」というタグ付きでパブリッシュしてみて下さい!
EDA Salonへの参加方法の詳細は下記をご覧ください。
Exploratoryをまだお持ちでない方は、フルバージョンを30日間の無料トライアルで試すか、パブリックバージョン(Exploratory Public)を無料で使うことができるのでぜひサインアップしてみてください。