東京にデータサイエンス・ブートキャンプをしにたまに行くが、ちょっと前までは渋谷あたりのアパートをAirbnbで予約して泊まっていた。
しかし、去年くらいから国による規制が厳しくなり、多くの物件が渋谷から消えてしまったので最近はホテルに滞在している。
しかし、今回のEDASalonはAirbnbのデータなので、今度東京に行くときに安く止まるにはどういった物件が良いのかということを調べてみようということで分析してみた。
結論から言うと、安いのはホステルタイプの物件で、ホステルに泊まるなら、ホステルが今熱い、台東区に行けばいいということがわかった。以下はその結論までの分析である。
今回は、最も物件の多い順から10の地域を選び、さらに価格が一泊あたり5万円以下の物件について分析している。
それらの物件は以下のような場所にある。
「5万円以下」にした理由は、ほぼ大半の物件はこの範囲に収まるからで、逆に「外れ値」のような物件を外した上で、価格と関係のある変数を見つけていきたかったからである。
ということで、まずは下記のように相関を出してみて、だいたいどのへんの変数と関係があるのかを出してみた。
まあ、やはりというべきか、Accommodate(何人泊まれるか)が一番相関があるようである。
次に、線形回帰を使って、Accommodate(何人泊まれるか)といくつか他の相関がありそうな変数を加えて、それぞれの変数がどのような相関関係にあるのか、またそういった関係は有意なのかを見てみる。
ここでは、地域ごとの差を考慮したかったので、「区」ごとにモデルを作ってみた。
どこの地域でも、Accommodate(何人泊まれるか)が価格と有意な相関があのがわかる。さらに一部の地域では、Review Score Rating(レビューのスコア)やProperty_Type(物件タイプ)が価格に影響しているようだ。
「変数重要度」を見るとどの地域も価格に大きく影響しているのはAccommodate(何人泊まれるか)だということがわかるが、次に重要なのがProperty_Type(物件タイプ)のようだ。
その中でも、一部の地域ではHostel(ホステル)というタイプの物件タイプだと、Apartment(アパート)に比べて価格は安いとのこと。
それでは、どれくらい安いのだろうか。
価格の分布を物件タイプごとに見てみると、たしかにホステルはアパートに比べて安い。(知ってる人にとっては当たり前のことだろうが、ここは愛嬌ということで。)
それでは、どのへんにホステルの物件が多いのだろうかということで、地図上に出してみると東京の東側、墨田区、台東区あたりに多いのがわかる。
墨田区、台東区に拡大。
この辺はホステルタイプの物件が多いようだ。こればっかりは全く知らなかった。ホステルタイプの物件は渋谷のあたりかなとかってに想像していただけに、以外だ。
それでは、この辺は昔からそうなのだろうか。
Airbnbに物件が表れてきた日時を時間軸に見てみる。
すると、台東区、中央区でこの2,3年の間にすごい勢いでホステルタイプの物件がAirbnbに出現してきているようだ。
ちなみに、それぞれの物件をAirbnbに出てきた年によって色を変えて表示すると以下のようになる。
真っ赤になっている地域が台東区である。
これをヒートマップにしてみると、いかに台東区がホステル物件に関しては「熱い」かがわかる。
全てのタイプの物件だと以下のように新宿、渋谷、池袋といった地域にたくさんの物件があることがわかるので、台東区はホステルが「熱い」ようだ。
最後に、今年に入って出てきたホステルは以下のように台東区の独壇場である。
台東区はホステルが「熱い」のである。