お風呂好き(嫌い)はどこにいるの?

Photo by Jennifer Burk on Unsplash

Photo by Jennifer Burk on Unsplash

もう5年ほど前になりますが、ウェザーニューズが2012年の1月に「冬のお風呂事情調査」なるものを行っていたのですが(リンク)、その調査結果のデータがあったのでさくっと分析してみました。

データとしては、以下の質問に対しての回答を都道府県別に集計したものです。

単純な疑問としては、お風呂が好きかどうかというのは、都道府県ごとにどういう差があるのか、地域ごとのトレンドはあるのか、さらには、寒い地域と暖かい地域によって好き嫌いは別れるのか、などとありますが、そうした問いに対する答えを見つけていっていましょう。

どの地域がお風呂好きか、嫌いか?

まずは、都道府県別でどこの人たちがお風呂が好きなのかを見てみます。

Loading...

これを見るとトップ3は宮崎県、富山県、青山県となっています。これを地図の上で見ると以下のようになります。あまり地域による違いというのはないようです。そして、ボトム3は島根県、沖縄県、宮崎県となっています。

この情報を地図の上で見てみましょう。

Loading...

どうやら、東北の青森県のまわり、中部の中でも特に山梨、長野、富山県につながる地域、さらに九州の宮崎県のまわりが比較的お風呂の好きな人達が多いようです。

お風呂好きはお風呂の時間が長いのか

ところで、お風呂が好きということは、お風呂場で過ごす時間、湯船に入る時間が多くなりそうなもんですが、以下のラインチャートを使ってこの3つの指標を比べてみましょう。

Loading...

するとどうやら、お風呂が好きということは、必ずしもお風呂場で過ごす時間、湯船に入る時間に比例するわけではないようです。つまり、これら3つの指標の間にはあまり相関関係がなさそうです。これを相関のアルゴリズムを使って確認してみましょう。

Loading...

それぞれの指標が交わる場所の色、数字が相関の係数を表しています。1だと強い正の相関、−1だと強い負の相関、0だとまったく相関がないということになります。ここに出ている数字は0.5から0.68なので、全く無いことはないが、それぞれの相関関係は弱いといえます。

お風呂場で過ごす時間が長いと、湯船に入る時間も長い?

お風呂が好きかどうかが他の2つに相関してないというのは分からなくもないですが、別の二つのお風呂場で過ごす時間、湯船に入る時間に相関関係がないというのは意外です。ちなみにこの二つのお風呂場で過ごす時間、湯船に入る時間を散布図を使って比べてみましょう。

Loading...

それぞれの点がそれぞれの都道府県を表します。相関関係がある場合は右上がりか右下がりの直線が引けてその近くに全ての道府県が集まるはずですが、実際にトレンドラインを引いてみるとそうなりません。

お風呂好き度とお風呂時間で都道府県をセグメント分け

今まで見てきたところ、お風呂が好きという人の比率、お風呂場で過ごす時間、湯船に入る時間の3つの指標は比較的独立していると言えそうです。そこで、これらを使って、今度は都道府県をセグメント分けしてみましょう。

ここでは、K-meansというクラスタリングのアルゴリズムを使いますが、その前に、それぞれの指標の数値の分布をチェックしておきましょう。

Loading...

すると、それぞれの指標の数字は別の範囲で分布しているのがわかります。例えば、お風呂が好きという人の比率という数字は50、43といったように比率(%)の数字であり他の指標に比べて大きいです。そして湯船に入る時間という数字はは16分、15分などといった数字で、他に比べて小さいです。ですので、このままの数字をK-meansのアルゴリズムに渡すと、数字の大きな指標、つまりお風呂が好きという人の比率の都道府県同士の差がより強くセグメント分けする時に影響してしまいます。これを防ぐために、それぞれの指標を一度標準化してしまいます。偏差値に表すようなものです。

そうすると、それぞれの指標が標準偏差で表され、その分布を比べてみると以下のようにほぼ同じ範囲で分布しているのが分かります。

Loading...

この数字をもとに、K-meansで4つのクラスターに分けてみます。まずはその結果を単純に、お風呂が好きという人の比率の指標と、お風呂場で過ごす時間の指標をもとにそれぞれの都道府県を散布図に表示してみると以下のようになります。

Loading...

それぞれの色はそれぞれのクラスターを表しています。

これを見ると、島根県、沖縄県、鹿児島県が入っているクラスター3はお風呂があまり好きでなく、さらに入る時間も少ないということがわかります。さらに青森県、富山県、宮崎県、山梨県の入るクラスタークラスター2はお風呂が大変好きでさらに入る時間も長いということがわかります。

ここでは、2つの指標しか見ていませんが、3つの指標を持ってそれぞれのクラスターがどういった特徴を持っているのかを探し出すために以下のように箱ひげ図を使ってみます。

Loading...

X軸の数字はそれぞれのクラスターのIDで、色がそれぞれの指標を表しています。

ここで、それぞれのクラスターを以下のように要約することができるのではないでしょうか。

それでは、それぞれのクラスターの特徴を理解した上でこの情報を地図の上の表してみましょう。

Loading...

お風呂の嫌いな県、つまりクラスター1、3は、西の方にいるようですが、好きな県は全国に散らばっています。さらに、東北、関東、関東から石川県に連なる地域(山梨、長野、富山、石川、福井)、そして九州のほうに、お風呂好きな県が比較的かたまっているようです。

都道府県別の違いはどの指標で一番顕著か?

ここでPCAという主成分分析のアルゴリズムを使って、それぞれの指標とクラスターの関係を見てみましょう。

Loading...

どうやら、一つ目の軸(X-Axis)とお風呂場で費やす時間というのは同じ方向に向いています。つまりどれだけお風呂場で時間を費やすのかということでこのデータの75%を説明することができるということですが、クラスターの情報も、この軸にそっているのが見れます。つまり、どれだけお風呂場で時間を費やすのかが分かればそれぞれの都道府県の特徴がわかるということです。

都道府県別の違いを一つのチャートで表す

それぞれの指標毎に都道府県を並べてみると以下のようになります。

Loading...

色がそれぞれのクラスターを表しています。

お風呂の嫌いなクラスター3(緑)はどの指標でも他と比べて数字が低いのが分かります。つまり他と比べて、お風呂が嫌いで、費やす時間も少ないということです。

それとは別に、一番お風呂好きであるクラスター2(オレンジ)はそれぞれの指標で違いが見られます。例えば宮崎県はお風呂がすごく好きである割には、お風呂に費やす時間はそんなに長くありません。山梨県は他の3件に比べてそこまでお風呂好きではないですが、湯船に入る時間はダントツでトップです。

何でお風呂に入るのか?

最後に、“あなたにとってお風呂とは?”という質問があって、それぞれの都道府県ごとにトップ3をリストしたデータがあるのですが、ここではトップ1だけを取ってきて、それを色に表してみましょう。

Loading...

そうすると、沖縄県というのは唯一お風呂は単に体をきれいにする場所と考えているのがわかります。現実的ですね。やはり、これは沖縄県は一年中暖かいために、あの寒い時にゆっくりと浸かってリラックスするという感覚がないのでしょうか。私の住んでるカリフォルニアも一年を通して比較的暖かいですが、やはり現地のアメリカ人達は、お風呂を日本人のように楽しむという文化はありません。もちろん、リラックスするのを楽しむ人がいないということではないですが。

さらに島根県の人たちはお風呂をリラックスする場所と考えてはいるが、それでも好きではないということでしょうか?つまり、リラックスしている暇はないということでしょうか。(笑)