データサイエンス・ブートキャンプに参加したときのノートの書き写し。
データサイエンス・ブートキャンプ 第2弾
クラスターを使って各都道府県で、どのような時間の使い方をし、似ている地域はどこなのかを分析する。
https://www.e-stat.go.jp/SG1/chiiki/CommunityProfileTopDispatchAction.do?code=2
まずはこの汚いデータをクラスタリングできるデータに整形していく。
行った手順は以下
以下のように綺麗なデータになった。
ただ、データをよく見てみると、仕事に費やしている時間が4時間だったりもしているので、働いていない人が50%くらいは平均して存在しているのかな?ということが想像できる。 元々このデータは有職者、無職者も対象にした調査であったため、6351万人/1億2730万人(約50%)の統計が反映されてしまっていたのかもしれない。
対して睡眠時間は働いているかに関わらず共通なので8時間という納得感のある数字になっていたのかもしれない。
ここではとりあえず先に進むためにこのまま分析を続ける。
県毎に可視化してみても同じような傾向しか見受けられず、県毎にどのような違いがあるのかもよくわからない。
ここで、分布を正しく把握するために、正規化の処理を行う。
まずは正規化する前のヒストグラムを見てみる。
正規化する前は左側に偏った分布になっていることがわかる。
次に可視化するのは正規化した分布。
正規化することで正規分布に近い分布にすることができた。
もう一つの切り口として、各時間の使い方について、県民性に違いがあるのかということである。
そこで各時間をキーにクラスタリングを行う。
手法はk-平均法を使用する。
ここでやっていることは、クラスタの数を増やす毎に中心の距離がどのくらい変化したかということを検証している。
3つのクラスタに分けた結果は以下。
こうしてみると、地域によって県民性の違いがわかりやすくなった。
ここで教師なし機械学習で得られた結果について、説明をしてみようと思う。
3つを並べた結果は以下。
※グラフのY軸は正規化した数値をプロットしているので、マイナスの数値がある。マイナスの数値はその項目に時間を使っていない、ということを表している。
クラスタ1に属する県は以下の26道県。
それぞれの時間の使い方は以下のようになっている。
以上のことから、ビジネスマン、ウーマンが多い__共働き世帯クラスタ__になったのではないだろうかと推測できる。
クラスター2に属するのは以下の10都県
それぞれの時間の使い方は以下のようになっている。
以上のことから、女性は専業主婦、男性は遠くへ出稼ぎにいくという__核家族世帯クラスタ__になっているのではないだろうかと想像できる。
東京が入っているので、通勤に時間をかける人が多いことにも納得感がある。
また、家事育児に時間を費やす女性の睡眠時間も少ないということもこのグラフから読み取れるのが面白い。
クラスター3に属するのは以下の11県
可視化した結果は以下。
それぞれの時間の使い方は以下のようになっている。
以上のことから、他のクラスタと比べて介護に費やす時間が多く、睡眠に時間を掛け、食事の時間もかけている人が多いので、__三世代世帯クラスタ__になっているのではないかと想像できる。
ここから想像できるのは、食べ物がおいしくて自然に囲まれ、一族揃って同じ地域に住むという傾向があるのではないか? ※間違ってたらすいません。
このように適度な数のクラスタに分けて属性を見ていくことによって、県民性と似ている地域を特定することができた。
この結果をビジネスにすると、以下のような施策に応用できるのではないかと考える。