Exploratory Publicが公開されたのでEDA Salon#5に参加してみます。
まずはどのような施設が掲載されているか、エリアごとに見てみることにします。
なので、まずは離島に関する物件をフィルタしてみます。
!str_detect(city, "^八丈町") &
!str_detect(city, "^新島村") &
!str_detect(city, "^三宅村") &
!str_detect(city, "^大島町") &
!str_detect(city, "^小笠原")
ということで、離島を除外しました。
外れ値?のような物件が八王子市にあるので今回はそれも除外します。
こちらの記事でExploratoryを使った(四分位数範囲を計算したやり方)外れ値を算出しているので参考にします。
mutate(
upper_range = IQR(price) * 1.5 + quantile(price, .75),
lower_range = quantile(price, .25) - IQR(price) * 1.5,
within_range = price < upper_range & price > lower_range
)
価格の外れ値も除外したものができました。
やっとそれっぽくなりました!
23区内にある物件の価格が高いのは納得ですが、奥多摩など西の方も価格が高い傾向があるということもわかりました。
最後に価格を予測するモデルを作って見たいのですが 時間が来てしまったので相関を出すところまででお終いにします…