自転車のレンタルデータから考えるリア充度についての考察

はじめに

第3回EDA Salonのお題である自転車のレンタルデータの傾向を調べていたときに発見したことを、その過程とともにまとめてみました。

曜日ごとの平均利用回数

まず、曜日ごとの平均利用回数を、カジュアル・ユーザーと登録済みユーザーについて調べてみました。

Loading...

どうやら、カジュアル・ユーザーと登録済みユーザーとでは、曜日ごとの利用傾向が大幅に違うようです。カジュアル・ユーザーは主に土日の週末に利用が多く、逆に登録済みユーザーは平日に利用が多いようです。

時間ごとの平均利用回数

次に、時間ごとの平均利用回数を、カジュアル・ユーザーと登録済みユーザーについて調べてみました。

Loading...

ここでも、カジュアル・ユーザーと登録済みユーザーとでの利用傾向が大幅に違うことがわかります。特に登録済みユーザーのほうは、朝8時、午後5時に大きな利用のピークが、そして、正午に小さなピークがあります。

時間ごとの平均利用回数を、それぞれの曜日ごとに調べてみました。朝8時、正午、午後5時のピークは、平日のみにみうけられます。

Loading...

確実なことは言えませんが、平日の朝8時、午後5時にピークがあるというのは通勤ではないかと考えるのが妥当ではないかと思います。お昼の山はおそらくランチではないでしょうか。

時間ごと、季節ごとの平均利用回数と気温の関係

次に、季節の列を使って、時間ごとの利用回数を季節ごとに見てみます。緑色の線は平均気温です。

Loading...

カジュアル・ユーザーは、気温の低い冬には利用がガクンと落ちます。一方、登録済みユーザーは、他の季節に比べると多少落ちるものの、通勤時のピークは依然として健在です。

まとめ (個人的見解)

このことから、カジュアル・ユーザーはおそらく、週末に「今日はあたたかくて気分もいいし、一緒にサイクリングでも行こうかキャッキャウフフ♪」「今日は寒いからサイクリングはやめて家でのんびりしようかキャッキャウフフ♪」という方々が多く、登録済みユーザーは、暑かろうが寒かろうが職場へ向けて今日もペダルを漕ぎ続ける修行僧のようなストイックな方々が多いのでは、ということがわかります。まとめますと、

  • カジュアル・ユーザー : リア充
  • 登録済みユーザー: 社畜 通勤目的

ということかと思われます。

ちなみに、これはまったくの個人的な見解と憶測であることをご理解いただければ幸いです。

おまけ: 勝利の方程式

さて、カジュアル・ユーザーはリア充、という実に大雑把な結論がでたわけですが、因果関係的にはどう考えても、リア充だからカジュアル・ユーザー、であるほうが正しいというのは明確です。そこで、カジュアル・ユーザーがどのようにこのサービスを利用しているのか、ということが読み取れれば、すなわちそれがリア充の行動パターンであるのでは、と思い調べてみました。

データを毎時間ごとのデータから1行1ユーザのデータに変換し、カジュアル・ユーザーをTRUE、登録済みユーザーをFALSEとする列を追加して、これを決定木のアルゴリズムにかけたのが以下のチャートです。なお、予測変数には曜日、気温、時間、季節の他に、風速、湿度なども含まれてます。また、全体数として登録済みユーザーのほうが多いというのがわかってますので、データの不均衡を解消するオプションを有効にしてあります。

Loading...

様々な予測変数があるにもかかわらず、カジュアル・ユーザーになる人というのは、週末で気温が9.5度以上のときに利用する人、というのがわかり、奇しくも先程の分析を裏付ける結果となりました。そしてこれが、リア充に至るための勝利の方程式ということになります :)


このノートで使われているチャートやアナリティクスに興味がある方は、ぜひこのノートのEDFをダウンロードして、お手元のExploratoryにインポートして試してみてください。また、データを毎時間ごとのデータから1行1ユーザのデータに変換する、というところがかなり強引なので、もしもっといいやり方を知っている方がいたらぜひ教えて下さい!