自転車の貸し出し件数は、どの季節に多くなるのだろうか。普段自転車に乗っているため、個人的にはどの季節でも乗りたい。
しかし、季節によって気温などが変わってくるため、乗れないケースもあるはずだ。当たり前だが、夏は暑いし、冬は寒い。
ありえない話かもしれないが、もし気温が一定だった場合、夏だから貸し出し件数が多くなるのか、それとも気温が高いから貸し出し件数が高くなるのだろうか。
そのため、貸し出し件数と季節にはどのような関係性があるのか、探索的にデータ分析していく。
まずはじめに、貸し出し件数の推移を「ラインチャート」を使って可視化していく。また、カジュアルユーザーと登録済みユーザーで分けてみたいため、「色」を使用している。
これを見ると、2011年に比べて2012年の方が登録済みユーザーの貸し出し件数が増えていることがわかる。
そして時期によって貸し出し件数には違いがあるようだ。冬は、貸し出し件数が下がっている。
季節ごとに貸し出し件数の合計を「バーチャート」を使って可視化する。
どちらも夏に貸し出し件数が多いことわかる。また、登録済みユーザーの場合は秋の貸し出し件数も多く、冬もカジュアルユーザーに比べると減少率は少ない。
月ごとの平均気温を「バーチャート」で可視化する。
季節ごとに綺麗に気温が分かれていて、7月に一番気温が高くなっていることがわかる。
月ごとの貸し出し件数に対して、気温を色に選択することで気温と貸し出し件数の関係を見ていく。
4月から10月までの貸し出し件数が高いことがわかる。そして、気温が20.60度から29.80度の貸し出し件数が多いようだ。この、貸し出し件数には気温が影響しているのか、それとも月や季節が影響しているのか。
目的変数を貸し出し件数にし、予測変数を季節にして線形回帰してみる。
ちなみにベースレベルは“Spring”になっている。
カジュアルユーザーの場合は、夏に貸し出し件数が多くなり、秋や冬は少なくなるようだ。
登録済みユーザーの場合は、夏と秋に貸し出し件数が多くなり、冬に少なくなる。
では、気温の情報を追加して多変量解析したらどうなるだろうか?
そうすることで、夏だから貸し出し件数が高くなるのか温度が高いから貸し出し件数が高くなるのかがわかるはずだ。
先ほどの線形回帰の予測変数に気温を追加する。
すると、先ほどまで夏が貸し出し件数の増加に対してポジティブに有意だったはずが、ネガティブに有意になってしまった。
この結果から、気温を一定とした時に春に比べて夏になると貸し出し件数が下がるという解釈ができる。
今回は、季節と気温に絞って貸し出し件数との関係性を探索的にデータ分析した。
今回のインサイトとしては、下記の通りだ。
次回は、天候や体感温度、湿度などのデータも考慮しながら探索的にデータ分析していきたい。