年代・性別ごとに行動者比率を可視化したら妄想が膨らんだ

はじめに

EDASalon第6回の、趣味・娯楽の種類別行動者率データで探索的データ分析を実施する。

早速だが、性別によって趣味・娯楽の行動者率が変わることは想像に容易いが、年代によっても人々の趣味趣向が変わるということもある。

では行動率の変化を性別や年代ごとに可視化したときに何らかのパターンのようなものが見つかるのだろうか。

上記について可視化を通して理解していきたい。

データ準備

残念ながら今回のデータは汚い。困るのは元のデータのセルの結合によって、データを読み込もうとすると以下のような形でデータが読み込まれてしまう点だ。

具体的にはヘッダーにしたい行が列によって異なるところがやっかいと言える。

そこで今回はシンプルに考えて、以下のように3つのパーツに分けてデータを取得して、

最後に元のデータの項目番号(赤枠でハイライト)で結合(Join)して、3つのパーツを1つのデータフレームに再構築する方法を取り、最終的に以下のようなデータフレームを最構築した。

念の為サマリビューも合わせて添付しておく。

行動者比率のヒートマップ

まずは年齢と趣味ごとの行動者比率をヒートマップで性別ごとに可視化した。

Loading...

結果、全体としては身体的な衰えなどの影響を大きく受けないであろう、以下の趣味・娯楽の行動率が高いことが分かってきた。

また以下の項目については若年時の行動率が高く

逆に以下の項目は、老年時の方が行動率が高かった。

言われてみると当たり前だが若年時と、老年時とで趣味・嗜好が変容するのかもしれない。(一人一人の経時での変遷を追っているわけではないので、各年代の時代考証を考慮すべきとは思う)

他にも男女によって差がある項目についてもいくつか確認できるが、そもそも今回作成したヒートマップは行動比率が高い趣味・娯楽をひと目で見分けることには役立つものの、行動率が全体的に低い、特定の趣味の行動率の変化を捉えることはできていないと言える。例えば、若年時には1%だった行動比率が老年時に10%に上昇していたとしても同じ濃青色で可視化されてしまう。

そこで趣味でグループ化して、各々の趣味ごとに標準化した値を利用して、ヒートマップを作成することで、各趣味で行動比率がどう変わっていくかを可視化していきたい。

標準化後の行動者比率のヒートマップ

前述の通り、趣味でグループ化し趣味ごとの行動者比率を標準化してヒートマップで性別ごとに可視化した。

Loading...

これによって、下記いくつか興味深いことが分かってきた。

一方で以下のようなことも分かってきた。

そこで、各趣味ごとの行動比率を年代・性別ごとに可視化して深堀りしていきたい

男女年代と行動率

前述の結果を踏まえ、下記の通り、年代と行動率をラインチャートで可視化してみた(行動率が年代によってどのように変わるかに注目したかったので、Y軸の同期を庵チェックしている)。

Loading...

大別すると以下のようにいくつかの顕著なパターンがあることが分かってきた。

感慨深いチャート5選

キャンプ

Loading...
  • 自立するタイミングや時間の多い大学生などのタイミングで盛り上がる
  • 30代からの盛り返しや子供の誕生などによるものか

囲碁

Loading...
  • 60を過ぎたあたりで、暇を持て余した男性が囲碁に目覚めたりしているのだろうか…

日曜大工

Loading...
  • 男性の中で盛り上がる続ける日曜大工熱
  • 女性は40代まで付き合ってくれるが、やがて離れていく

パチンコ

Loading...
  • 全年代の友パチンコ

音楽会などによるクラシック音楽鑑賞

Loading...
  • 多くの趣味は男女ともに同じような推移を示すか、片方だけが変動するといったケースが多い中、クラシック音楽鑑賞だけは、男女で逆の動きを示していた
  • 根拠は全くないが、働き盛りの年齢になるにつれて、男性は心や時間の余裕がなくなり、暇をもてました妻が鑑賞会に繰り出すイメージを持ってしまった