先月は、自転車のレンタルデータをもとに探索的にデータ分析をしてもらいました。
10月9日に、9月のEDA Salonの発表会を行ういます。
この発表会では、EDA Salonに投稿してくれた方がスピーカーとなって、テーマ設定の背景やどういった分析をしたのかを発表していただきます。
今月のEDASalonの投稿をview数やLike数をもとにランキングにしてみました!
最もView数が多かったのはwasabi_さんのカジュアルユーザーのレンタル自転車の使用傾向に関する探索的データ分析でした!おめでとうございます!!
ランキングはこちらからご覧ください。
EDA Salonで投稿していただいたインサイトを、もっとも印象的だったベストチャートとともに、ハイライトとして紹介していきます!
それでは早速みていきましょう!
Wasabiさんは、カジュアルユーザーに限定して、自転車の利用傾向を探索的にデータ分析しています。
Wasabiさんの分析は、問題設定とチャートの見せ方が非常にうまく、見ていてとてもわかりやすい分析でした。
主に、バーチャートやヒストグラム等を使っていましたが、データをキャラクター型のまま可視化するのではなく、ファクター型(順序つきカテゴリー)に変換していました。
例えば、今回のデータで1日の貸し出し件数を時間ごとにバーチャートで可視化すると深夜0時からスタートしてしまいますが、ファクター型にして値の順序をセットしていたことで、朝5時から順序立てられたチャートとなっています。
こういった細かな気配りによって、直感的に理解できるチャートが多かったため、チャートの相手に伝える力を再確認できた分析でした。
keiさんは、自転車のレンタルデータを分析した結果、カジュアルユーザーをリア充と定義しています。
下記は、カジュアル・ユーザーをTRUE、登録済みユーザーをFALSEとする列を目的変数にした決定木です。
この決定木にあるように、カジュアルユーザー(リア充)になる人は、週末で気温が9.5度以上のときに利用する人のようです。
決定木をつかうことで、目的変数(カジュアルユーザーになる人)に重要度の高い変数、そして基準値がわかるため面白い発見ができますね。
keiさんは、データから得たインサイトに対して面白い仮説を投げかけてさらに深掘りしているのが特徴的な分析でした!
Tanabeさんは、カジュアルユーザーと登録済みユーザーの貸し出し件数をもとに売上を算出するという分析でした。
下記は、case_whenを使ってユーザータイプ(カジュアル・登録済みユーザー)と休日/祝日に合わせて売上を推定したバーチャートです。
まとめ終わった後に気づいたことというセクションにて述べていますが、利用し始めた人で計算されたようです。
使用回数で見たときには売上は、登録済みユーザーとカジュアルユーザーでどのように違うのか気になるところですね。
しかし、この分析でよかったポイントとして、実際のビジネスケースとして考えることと、case_whenを使って条件に合わせて売上を推定するというデータラングリングがグッドだと思いました。
Takahashiさんは、
このラインチャートは、X軸に1日の時間を、Y軸にユーザータイプ別に貸し出し件数を割り当てて、繰り返しを使ってWokingdayかNon-workingdayに分けて可視化しています。
Non-workingdayの場合は、カジュアルユーザーも登録済みユーザーも昼の12時から夕方16時まで貸し出し件数がピークになるため、どちらも同じような傾向があることがわかります。
Workingdayでは、登録済みユーザーの場合は、朝の8時と夕方の17時に大きなピークを迎えるため通勤に使用していることが推察されます。そして、カジュアルユーザーも、朝の8時から貸し出し件数が伸びはじめ、17時にはピークを迎えていることから、通勤目的で使用する人が一定数いるのではないかという仮設を立てられていました。
カジュアルユーザーの場合は、通勤ではなくお出かけに使用しているイメージを持っていたので、意外な発見です。
Hideさんは、自転車の利用件数は時間帯に影響されるのかという目的を設定しています。
下記は、目的変数を登録済みユーザーの利用件数にしたランダムフォレストの予測影響度(EDARF)です。
EDARFの詳細はノートを見てください!
Hideさんは、最初にバーチャートやヒートマップを使った可視化によって、利用件数と時間帯の関係性を見ていました。
しかし最後に、機械学習のランダムフォレストを使っても同じようなインサイトが得られるのかを試しています。
結果としては、可視化で得られたインサイトと同じような結果がランダムフォレストから得ることができていました。
Hideさんもおっしゃっているように、「ランダムフォレストにかけてその結果から可視化で確認していく」というアプローチもいいですね!
Kanさんは、自転車のレンタル件数と天候の関係性について探索的にデータ分析しています。
下記は、登録済みユーザーの貸し出し件数を目的変数にして予測変数に標準化した気温、湿度、風速を割り当てた線形回帰の結果です。そして、繰り返しを使って期間ごとに分割されています。
これを見ると、湿度と風速が一定であるという条件であれば気温は全ての時期でレンタル件数に影響を及ぼしているのがわかります。 また、夏は気温と負の相関があり、気温が上がるとレンタル件数が下がるといったインサイトは面白いです。
列の値を標準化することによって、全く違った数値のデータを比べやすくしている点がさすがです!
湿度や風速といった変数があったときに、それらの値が一定であるという条件のもと、気温と貸し出し件数の関係性を分析できるのは、統計のモデルの良さですね。
Ikuyaさんは、レンタル数に対して時間や休日か平日はどのように影響しているのかを分析されています。
このバーチャートは、それぞれの季節を祝日または平日で分割してレンタル数を時間ごとに可視化しています。
データラングリングにて、複数の列を一つにまとめることができるUniteを使って、季節の列と祝日情報の列をまとめて一つの列にしています。
それによって、チャートの繰り返しに2変数を組み合わせた列を使うというのは、Uniteの面白い使い方だと思いました。
最後に、私白戸の投稿となります。
下記のバーチャートは、それぞれの月の自転車の貸し出し件数に対して、色を使って気温の関係を可視化しています。
実は気温は数値型のデータなんですが、色に数値型のデータを割り当てることができます。ここでは、数値を等幅で5等分しています。
このバーチャートから、20度から30度あたりに貸し出し件数が多いように見て取れます。
そしてちょっとしたこだわりなんですが、データに合わせた色を使用しています。どういうことかというと、寒いときには青く、暑いときには赤くするように設定しています。
パレットに自分の好きな色を追加したい方は、こちらをご覧ください。
先月は、自転車のレンタルデータをもとにEDA Salonに挑戦してもらいました。
今回の投稿では、売上推定やカジュアルユーザーはリア充であるといった興味深い問題設定も多く楽しく読ませていただきました。
人によって探索的データ分析する際の手順やチャートの使い方が異なるのは非常に面白いのと同時に学びも多いため勉強になります。
EDA Salonに挑戦してくださった皆様ありがとうございました!
次回もEDASalonでも楽しみにお待ちしています。
ところで、次回のEDA Salonのお題が決まりました!
遅くなってしまい申し訳ございません。。
次回のEDASalonのお題は、「ユニコーン企業のデータ」です!
photo by pixabay
どの国でユニコーン企業の数が多いのか、ユニコーン企業の産業はどういった傾向があるのかなどご自身の興味に合わせて探索的に分析してみてください!
Exploratoryでデータを可視化したり、分析したら、それをノートに簡単にまとめて、「EDASalon」というタグ付きでパブリッシュしてみて下さい!
EDA Salonへの参加方法の詳細は下記をご覧ください。
Exploratoryをまだお持ちでない方は、30日間の無料トライアルがありますので、この機会にサインアップしてぜひ試してみてください。
みなさんのご参加お待ちしております!