日本における新型コロナウイルスへの感染状況について

第9回 EDA Salon - コロナウイルス

本投稿は個人的な見解であり、何か特定のものを非難したりするものではありません。

動機

先日、東京都を筆頭に各知事が東京への外出を自粛するように要請しました。

企業もリモートワークが増加しているみたいです。

そこで、この自粛要請の判断はどうなのかを確かめるためにデータを可視化しました。

データ

  • 東洋経済オンライン編集部の荻原さんがGitHub上で公開している「covid19
  • 総務省統計局「総合統計書(平成27年国勢調査における人口でデータ等)」
  • KaggleでSRKさんが提供している「Novel Corona Virus 2019 Dataset(3月26日現在)」

結論

関東での日々の感染者数が増加傾向にあり、他の地域に比べて特に注意が必要です。

可視化

日本国内の感染状況を可視化していきます。今回のデータは3月24日現在です。

居住地が中国になっている行を除いて1025名分のデータです。

厚生労働省によると、この日で国内感染者数が1095名であるので70名分がの差があります。

感染者総数です。

Loading...
Loading...

年代別です。

Loading...

都道府県別の感染者数です。

Loading...

感染者数の多い都道府県です。

Loading...
Loading...

日々の感染者数の推移です。

Loading...

前回の投稿では、日本全体としてピークがきているような感じに見えたのですが、そこからまた上がり始めています。

Loading...

都道府県別に見ると、関東で増加傾向にあることが分かります。

人から人へ感染するので、人口との関係があると思い、総務省統計局のHPから人口、面積に関するデータを取ってきます。

Loading...

昼間人口と感染者数と都道府県の面積の散布図です。

Loading...

次は夜間人口に対するプロットです。

Loading...

夜間人口より昼間人口の方が感染者数と相関関係が強そうです。

昼間人口と感染者数です。

Loading...

夜間人口と感染者数です。

Loading...

人口が多いと感染者が多くなっている傾向があります。

次は、人口の密集度合いでみていきます。

昼間人口で人口密度を計算し、感染者数との散布図を描き、回帰直線を引くと、、、

Loading...

北海道は感染者数は多いですが人口密度が低く、北海道を除くとR2乗は0.70まで上がります。

回帰直線より上に外れている北海道・愛知県・兵庫県は、ある一定の地域に人が集中するため人口密度が低くても感染者数が多いと考えることができそうです。

K-Meansクラスタリングで分類します。

クラスター数を選定するため、エルボー・メソッドを見ます。

Loading...

今回は4つにします。

Loading...

箱ヒゲ図です。

Loading...
  1. 総面積は広くはないが他は高い
  2. 全体的に低い
  3. 総面積が広い
  4. 総面積以外が少し高い

に分類できそうです。

やはり、人口が多いと感染者数も増える傾向にあることが言えます。

通勤・通学等で人が集まると感染リスクは高まると言えます。

ちなみに

世界の感染者数・回復者数・死亡者数を見てみます。

KaggleでSRKさんが提供している「Novel Corona Virus 2019 Dataset(3月26日現在)」を使用します。

地球全体です。

Loading...

各国です。

Loading...

x:感染者数  y:回復者数  z:死亡者数

日本は端っこの集団に埋もれているので、世界的に見れば持ち堪えているのかもしれません。

ですが、油断はできないので、感染防止に努めることは必要です。

世界の感染状況については、前回の投稿を参考に。