自転車シェアリングサービスの利用件数に時間帯は影響しているのか?

第3回のEDA SalonはcapitalbikeshareというWashington D.Cにある自転車シェアリングサービスの2年分(2011年と2012年)の利用履歴データである。データをざっとみると、時間(Hour)という列があったので、登録済み(Registered)の場合とカジュアル(Casual)利用の場合のそれぞれにおいて、この時間(というか時間帯)によって、利用回数に違いがあるのかを可視化して比べてみた。

結論

結論としては、登録済み(Registered)の場合とカジュアル(Casual)利用の場合の双方とも、季節や曜日によって若干変動があるものの、特定の時間帯での利用が多いことが分かった。具体的には登録済み(Registered)の場合は平日の朝と夕方、カジュアルの場合には土日の昼過ぎから夕方が利用回数が最も多くなることが分かった。

詳細

以下に探索的分析の詳細を説明する。

事前準備:時間帯の列を作成

元データはHourという列に8時のように時間のみが入っているデータなので、この列から、明け方(3時から6時)、(6時から9時)、昼前(9時から12時)、昼過ぎ(12時から15時)、夕方(15時から18時)、宵の内(18時から21時)、夜半(21時から24時)、未明(0時から3時)と時間帯の列を作る。(それぞれ区分のEndは含まないことで、次の区分と重複がでないようにする)

時間帯による貸し出し件数の違い

さて、作った時間帯の列を使ってそれぞれの時間帯での利用件数を見てみよう。

Loading...

2011年と2012年ともに登録済み(Registered:オレンジのバー)は朝と、夕方もしくは宵の内に利用数が多いのがわかる。これは通勤、通学用に自転車利用する人が多いからだろうか? カジュアル(Casual)に関しては、昼過ぎから夕方にかけての利用が多い。観光に訪れているツーリストの利用がメインであれば、この時間に利用が多いのはうなずける。

時間帯と曜日による貸し出し件数の違い

次に登録済み(Registered)の利用件数を曜日と時間帯の組み合わせでの利用件数をヒートマップで2011年と2012年の両方を可視化してみる。

登録済み(Registered)の利用件数

Loading...

2012年のデータを見ると、登録済み(Registered)は平日の朝と、平日の夕方もしくは宵の内に利用件数が多いのがわかる。土日の朝の利用数が少ないところを見ると、恐らく通勤、通学用途がメインだろう。登録済み(Registered)は土日は昼過ぎ、夕方の利用回数が多いので、平日とは違って、レジャーや運動等にも自転車を使っているのであろう。

Casualの利用件数

Loading...

カジュアル(Casual)に関しては、登録済み(Registered)と利用傾向が違うのが見て取れる。圧倒的に土日の昼過ぎと夕方に利用回数が多いのがわかる。自転車の稼働率の観点から見ても、capitalbikeshareが登録済み(Registered)とカジュアル(Casual)という2つのパターンを用意しているのは納得が行く。

時間帯と季節による貸し出しの違い

登録済み(Registered)の利用件数

Loading...

登録済み(Registered)は冬を除いて、朝と、平日の夕方もしくは夜に利用件数が多いのがわかる。冬の利用件数が少ないのはWashinton D.Cで冬に天候が悪いか、気温が低いかと想定されるが、冬の気候を見てみると、他の季節と比べて、極端に大雨や大雪の割合が増えているわけではない。

Loading...

次に季節毎の平均気温を比較してみると

Loading...

Washington D.C.の2011年と2012年の冬の気温は平均で摂氏5.18度と自転車に乗るには寒い。冬にregisterの利用回数が減るのは天候というよりも温度のせいかもしれない。

カジュアル(Casual)の利用件数

Loading...

Casualは冬を除いて、昼過ぎと夕方の利用回数が多い。冬に利用数が減るのは恐らく上述した冬の低い平均気温のせいかもしれない。夏だけは宵の内の利用回数が増えているのがわかる。これは夏は日が長いので自転車に乗れる時間も長くなり、利用回数が伸びているのだろうか。

まとめ

ここまで可視化で利用回数と時間帯の探索的分析を行い、登録済み(Registered)の場合とカジュアル(Casual)利用の場合の双方とも、季節や曜日によって若干変動があるものの、特定の時間帯での利用が多いことが分かった。最後に機械学習(具体的にはランダムフォレスト)でも同じことが分かるかを試して見る。

Registered(登録済み)

カジュアル(Casual利用)をランダムフォレストにかけた際の、変種重要度を確認すると、やはり、時間区分がトップに来ている。

Loading...

予測影響度を見ると、朝、宵の内、夕方の時間帯が利用回数をより増やす方向働くことが分かる。これは探索的データ分析の結果と合致する。

Loading...

カジュアル(Casual利用)

カジュアル(Casual利用)をランダムフォレストにかけた際の、変種重要度を確認すると、やはり、時間区分がトップに来ている。

Loading...

予測影響度を見ると、昼過ぎ、夕方の時間帯が利用回数をより増やす方向働くことが分かる。これも探索的データ分析の結果と合致する。

Loading...

時間やドメインの知識がある場合は、それを活かしながら可視化をフル活用して、探索的データ分析をしていくのもいいが、このようにランダムフォレストにかけてその結果から可視化で確認していくというアプローチも試すといいかもしれない。