Exploratory Publicが公開されたのでEDA Salon#5に参加してみます。

データの可視化 その1

まずはどのような施設が掲載されているか、エリアごとに見てみることにします。

Loading...
なるほど、離島にも物件があるため、日本全国が表示されるようになっていますね。それと、プロットした丸がほぼ薄い青で外れ値があるようです。

なので、まずは離島に関する物件をフィルタしてみます。

!str_detect(city, "^八丈町") &
!str_detect(city, "^新島村") &
!str_detect(city, "^三宅村") &
!str_detect(city, "^大島町") &
!str_detect(city, "^小笠原")

データの可視化 その2

ということで、離島を除外しました。

Loading...

外れ値?のような物件が八王子市にあるので今回はそれも除外します。

こちらの記事でExploratoryを使った(四分位数範囲を計算したやり方)外れ値を算出しているので参考にします。

mutate(
upper_range = IQR(price) * 1.5 + quantile(price, .75),
lower_range = quantile(price, .25) - IQR(price) * 1.5, 
within_range = price < upper_range & price > lower_range
)

データの可視化 その3

価格の外れ値も除外したものができました。

Loading...

やっとそれっぽくなりました!

23区内にある物件の価格が高いのは納得ですが、奥多摩など西の方も価格が高い傾向があるということもわかりました。

データの予測?

最後に価格を予測するモデルを作って見たいのですが 時間が来てしまったので相関を出すところまででお終いにします…

Loading...