今回は可視化の練習が主となります。また、意見等は個人的な見解であり、何か特定のものを非難したりするものではありません。
夏のオリンピックでメダルをたくさん獲得する国の特徴を可視化する。
EDA Salon 第7回(2020年1月)のデータ「オリンピックデータ(オリンピックの過去120年分(1896~2016)のデータ)」
今回は、夏のオリンピックに限定したいので、フィルタで「Season」を「Summer」に等しいとしました。
バーチャートで各国のメダル獲得数を可視化してみます。
単純にチーム名=国だと思っていたので、チーム名でメダル獲得数を可視化したら、チーム名がおかしなことに気付きました。
データをしっかり見ないといけませんね(素人ですいません)。
国ごとに集計したいのでデータの「NOC」の列を見てみると各人・チームが所属している(?)国内オリンピック委員会が表示されています。
各国・各地域の選考に関わる組織ということで、これを「各国」と考えて集計しようと思います。
データを「Year」「NOC」「Medal」「Sport」「Event」でグループ化して「Event」で集計しました。
データを見てみると「Event_unq」が1になっているので、各国の各種目におけるメダル(金・銀・胴・なし)を重複して数えていないことが分かります。
単純にチームや個人でグループ化してしまうと、チームスポーツでメダルをとった場合に、同じチームメンバーの分もメダル数に数えてしまうので「NOC」「Event」でグループ化してます。
「Sport」はテーブルを見やすくするために入れているだけです。
バーチャートで各国のメダル数を可視化してみます。
色分けしてみます。
上位15か国を表示して、ソートしています。
アメリカが断トツでメダルを獲得しているのが分かります。
ちなみに、日本が12位に入っています。
今回は、アメリカについてもう少し見てみたいと思います。
「USA」でフィルタをかけて、ラインチャートで可視化してみます。トレンドラインは多項式です。
バーチャートでメダルの種類を見てみます。
年々微妙に上昇している(?)傾向が見えます。
しかし、1904年と1984年が異常に多いことが分かります。
1904年はセントルイスオリンピック(アメリカのミズーリ州)、1984年はロサンゼルスオリンピック(アメリカのカリフォルニア州)です。
1904年のセントルイスオリンピックを国ごとに「Event」で集計して、バーチャートで可視化します。
ほぼアメリカしかいないことがわかります。
セントルイスオリンピックは、北米大陸の内陸部にあるセントルイスまでの交通難及びヨーロッパ参加国の減少によって、91種目中42種目ではアメリカ以外の参加者が不在で行われ、金メダル数でも全96個中アメリカが78個を獲得したとのことです(出典:Wikipedia)。
上記91種目とありますが、95種目あるんですよね、、、なぜだか分かる方は教えてください。「Event」でグループ化しても95種目(95行)出てきます。
次に、各国のメダル数とその割合も同様に可視化してみます。
色分けしてみます。
割合を見てみます。
メダルの数はアメリカに集中しています。
こちらも上記に金メダルが78個とありますが、グラフでは76個になってしまっています。
理由は考え中です(中途半端ですいません)。
また、1904年は日露戦争もあり国際情勢が不安定であったことなど、様々な要因が影響していそうです。
ですが、「開催国=参加種目数が多い=メダル獲得数が多い」という方程式がチラついたので、他の都市で開催されているオリンピックはどうなのか見てみます。
近い年の1900年のパリオリンピック(フランス)の各国の参加種目数と獲得メダル数も見てみます。
各国の参加種目数です。
各国の獲得メダル数です(上位10か国)。
メダル数を色分けしてみます(上位10か国)。
フランス開催でフランスが一番参加種目数が多く、メダル獲得数も多いです。
アメリカを見てみると41種目に出場して54個のメダルを獲得しています。
比較として、1964年の東京オリンピックを見てみます。
同じく、各国の参加種目数と獲得メダル数も見てみます。
各国の参加種目数です(上位15か国)。
日本が1位ではないですが、上位に入ってますね(4位)。
次は、各国の獲得メダル数です(上位10か国)。
日本は5位で健闘しています。
メダル数を色分けしてみます(上位10か国)。
金メダル数では日本が3位に入っていることが分かりました。
今年のオリンピックもメダル目指して頑張ってください。
「開催国=参加種目数が多い=メダル獲得数が多い」とはなりませんが、自国開催ということで、精神的な強みが出ているのかもしれません。
ちなみに、各オリンピックの参加国数をみてみると、
1916年ベルリンオリンピック(ドイツ)は第一次世界大戦で中止。 1940年東京オリンピックは日中戦争で中止。 1944年ロンドンオリンピック(イギリス)は第二次世界大戦で中止。 1976年モントリオールオリンピック(カナダ)はアフリカ22か国不参加。 1980年モスクワオリンピック(旧ソ連)はアメリカ等が不参加(日本も)。(出典:Wikipedia)
参加国数は徐々に増加傾向にありますが、平和の祭典も色々と大変なことが分かります。
中途半端な感じになってしまいましたが、以上になります。
今回は可視化の練習が主(バーチャートばかりですが)でしたので、もっとデータに対して具体的な質問を繰り返して、掘り下げていかないといけませんね。それがEDAですよね。。。
ご意見等いただけたら嬉しいです。 ここはおかしいとか、ここはどうなっているのかとか、こうしたら見やすいとか、このチャートの方がいいとか。。。 最後まで見ていただき、ありがとうございました。