Exploratoryで都道府県毎の時間の使い方を分析する

データサイエンス・ブートキャンプに参加したときのノートの書き写し。
データサイエンス・ブートキャンプ 第2弾

クラスターを使って各都道府県で、どのような時間の使い方をし、似ている地域はどこなのかを分析する。
https://www.e-stat.go.jp/SG1/chiiki/CommunityProfileTopDispatchAction.do?code=2

データラングリング

まずはこの汚いデータをクラスタリングできるデータに整形していく。

Loading…

行った手順は以下

  • 1行目の意味の無い行を削除する
  • 地域コードの列を削除する
  • X1列の名前をpref_nameに変換する
  • 各時間の列を行に変換する
  • x.xはxx:xxという意味なので「.」で列を分割する
  • x.x時間という単位にするためにhour+min/60の列を追加する
  • カテゴリ名が読みにくいので「の平均時間」、「(時間・分)」という文字列をデータから削除する

以下のように綺麗なデータになった。

Loading…

データを把握する

まずは全体の傾向を把握するために可視化してみる。 各カテゴリ毎の平均時間を棒グラフで見てみると、男女共に睡眠時間に約8時間を費やし、次いで仕事に時間を費やしている傾向がある。
Loading…

ただ、データをよく見てみると、仕事に費やしている時間が4時間だったりもしているので、働いていない人が50%くらいは平均して存在しているのかな?ということが想像できる。 元々このデータは有職者、無職者も対象にした調査であったため、6351万人/1億2730万人(約50%)の統計が反映されてしまっていたのかもしれない。
対して睡眠時間は働いているかに関わらず共通なので8時間という納得感のある数字になっていたのかもしれない。

ここではとりあえず先に進むためにこのまま分析を続ける。

県毎に可視化する

県毎に可視化してみても同じような傾向しか見受けられず、県毎にどのような違いがあるのかもよくわからない。

Loading…

正規化する

ここで、分布を正しく把握するために、正規化の処理を行う。
まずは正規化する前のヒストグラムを見てみる。

Loading…

正規化する前は左側に偏った分布になっていることがわかる。
次に可視化するのは正規化した分布。

Loading…

正規化することで正規分布に近い分布にすることができた。

県民性の可視化

もう一つの切り口として、各時間の使い方について、県民性に違いがあるのかということである。
そこで各時間をキーにクラスタリングを行う。
手法はk-平均法を使用する。

クラスタの数はこちらを参考に、クラスタの改善率が最も高いクラスタ3で試してみる。
Loading…
Loading…

ここでやっていることは、クラスタの数を増やす毎に中心の距離がどのくらい変化したかということを検証している。

3つのクラスタに分けた結果は以下。

Loading…

こうしてみると、地域によって県民性の違いがわかりやすくなった。

各クラスタの説明

ここで教師なし機械学習で得られた結果について、説明をしてみようと思う。
3つを並べた結果は以下。
※グラフのY軸は正規化した数値をプロットしているので、マイナスの数値がある。マイナスの数値はその項目に時間を使っていない、ということを表している。

Loading…

クラスタ1

クラスタ1に属する県は以下の26道県。

Loading…

それぞれの時間の使い方は以下のようになっている。

女性

  • 育児に時間をかけない女性の割合が50%以上存在する
  • 仕事に時間をかける女性が多い
  • 買い物に時間をかける女性が多い
  • 75%以上の女性が学業に時間をかけている

男性

  • 男性も50%以上の割合で仕事に時間をかけている
  • 女性と比べて男性のほうが睡眠にかける時間が少ない
  • 身の回りの用事には時間をかけない

共通

  • 通勤、通学にはそれほど時間をかけない
  • 介護にはあまり時間をかけない

以上のことから、ビジネスマン、ウーマンが多い__共働き世帯クラスタ__になったのではないだろうかと推測できる。

Loading…

クラスター2

クラスター2に属するのは以下の10都県

Loading…

それぞれの時間の使い方は以下のようになっている。

女性

  • 仕事に時間をかけない割合が非常に高い(専業主婦?)
  • 学業にとても時間を費やしている
  • 家事に時間を費やしている
  • 育児に時間を費やしている
  • 買い物にも時間を費やしている
  • 対して睡眠にはあまり時間を費やせていない

男性

  • 食事に時間を費やす人とほとんど時間をかけない人の差が激しい
  • 家事に時間をかける人が少ない
  • 睡眠時間も少ない傾向があるが、同地域の女性ほどではない

共通

  • 介護にはあまり時間をかけない
  • 通勤、通学には時間をかけている
  • 買い物には時間をかけている

以上のことから、女性は専業主婦、男性は遠くへ出稼ぎにいくという__核家族世帯クラスタ__になっているのではないだろうかと想像できる。

東京が入っているので、通勤に時間をかける人が多いことにも納得感がある。
また、家事育児に時間を費やす女性の睡眠時間も少ないということもこのグラフから読み取れるのが面白い。

Loading…

クラスター3

クラスター3に属するのは以下の11県

Loading…

可視化した結果は以下。

Loading…

それぞれの時間の使い方は以下のようになっている。

女性

  • 介護に時間をかけている
  • 育児に時間をかけている
  • 仕事にも時間をかけている
  • 通勤、通学にそこそこ時間をかけている
  • 身の回りの用事に時間をかけている

男性

  • 他のクラスタに比べ、介護に時間をかけている
  • 睡眠に時間をかけている
  • 通勤、通学にはあまり時間をかけていない
  • 学業に時間をかけている
  • 食事に時間をかけている

共通

  • 家事に時間をかけない
  • 介護に時間をかけている

以上のことから、他のクラスタと比べて介護に費やす時間が多く、睡眠に時間を掛け、食事の時間もかけている人が多いので、__三世代世帯クラスタ__になっているのではないかと想像できる。
ここから想像できるのは、食べ物がおいしくて自然に囲まれ、一族揃って同じ地域に住むという傾向があるのではないか? ※間違ってたらすいません。

まとめ

このように適度な数のクラスタに分けて属性を見ていくことによって、県民性と似ている地域を特定することができた。
この結果をビジネスにすると、以下のような施策に応用できるのではないかと考える。

  • ある県で成功したキャンペーンを全国展開する際の優先順位として使う
  • 育児に疲れた女性に対するメールマガジンの配布(開封率が高いと思われる層へのダイレクトマーケティング)
  • 各クラスタ毎のコンテンツの出しわけ(県=クラスタx、特徴が判明しているのでそれに即したコンテンツをweb上で出しわけるダイレクトマーケティング)