自転車のレンタルサービスを使ったことがないので、どのようなものなのか皆目、検討もつかない。そこで時間毎のレンタル数などを見ていくことで、どのようにサービスが利用されているのかあたりをつけたい。更に1年を通して、どのような時に需要が高まり、また低くなるのか、ということも合わせて理解していきたい。
早速、時間ごとのレンタル件数を見ていこう。すると8時前後にピークを迎える山と、17時前後でピークを迎える山があることが分かる。いわゆる「ふたこぶ」型のデータというやつだ。
ここから想定されるのはこのデータには異なる傾向もつ集団がいる可能性があるということである。
もう少し細かく見ていこう。ありがたいことにCasual
とRegistered
というレンタルタイプがあるので、その両者で分割してみる。
すると実は先程の「ふたごぶ」は「「Registered」によってもたらされていることが分かった。
さらに貸し出し件数自体を比較すると圧倒的に「Registered 」のレンタル件数が多いということも分かってきた。
こういうサービスでは一部の登録ユーザーがいて、圧倒的に一時利用のユーザーが多いものと思っていたので正直意外だった。
では平日か休日かで利用傾向は変わらないのだろうか。さらに深堀りたい。先程の情報に「休祝日かどうか」も加えてみる。
情報量が増えてきたので、ここからは1つのチャートで「Registered 」と「Casual」を表現していく。
するとまた、新しいことが分かった。「ふたこぶ」の正体は平日の「Registered」ユーザーによるものということだ。おそらく最初の山は通勤・通学などの利用によってもたらされる山で、次の山は帰宅によってもたらされる山ではないだろうか。
一方で休祝日のグループを見ると、面白いのは休祝日の「Casual」ユーザーは平日の「Casual」ユーザーや休祝日の「Registered」ユーザよりも多くレンタルするということだ。概ねレジャー目的で使われるケースが多いということ想定してよいだろう。
今度は季節ごとに変化があるのかも気になってくる。実際に分解してみよう。
大きな利用傾向は四季を通して変わらないことが分かってきたが、1つ気になることが出てきた。それは冬はどうやら利用が極端に減るということだ。
冬になると利用が減るのであれば、次は天気はどうだろう。先程の情報に天気の情報を加えてみる。
まずは平日(1…晴れ、2…曇り、3…雨)。
続いて急祝日。
残念ながら、天気が悪くなると、レンタル件数は季節、休祝日を通してて減るということしか分からなかった。より細かく深堀っていくこともできるが、これ以上やるととてつもない数のバー・チャートになってしまうので、一旦ここで、分かったことをまとめたい。
ここで気づいたのだが、実はこれらの情報は例えばランダムフォレストを使えばもっとスピーディー理解できたかもしれない。
そこでランダムフォレストにかけた時に同じことが瞬時に分かるか、試してみた。
これまで比べてきた要素を使って、ランダムフォレストにかけてみる。
予測精度がとても高いと言える程ではないが、ある程度レンタル件数を説明できるモデルになっていることが分かる。
次に予測影響度のタブを見てみる。
すると、まとめに書いてきたことと同じことが、ランダムフォレスト(予測影響度)を使えば一瞬で分かるという結果になった。
データを見ていく際にとりあえずランダムフォレストをかけるといった話をきくことも多いが、それを身を持って理解するケースになった。
バイクのレンタルにおいて以下のことが言えることが分かった。