先月は、ユニコーン企業のデータをもとに探索的にデータ分析をしてもらいました。
11月6日に、10月のEDA Salonの発表会を行いました。
この発表会では、EDA Salonに投稿してくれた方がスピーカーとなって、テーマ設定の背景やどういった分析をしたのかを発表しています。
今月のEDASalonの投稿をview数やLike数をもとにランキングにしてみました!
EDA Salonで投稿していただいたインサイトを、もっとも印象的だったベストチャートとともに、ハイライトとして紹介していきます!
それでは早速みていきましょう!
Wasabiさんは、投資家がどのような産業のスタートアップに投資しているかの傾向を探索的にデータ分析しています。
今回のデータは表記ゆれがいくつかあったのですが、Wasabiさんはデータラングリングを非常に丁寧にされていました。
そして、今回は格子図を使って投資会社の投資件数や投資金額を産業ごとに可視化していました。
このチャートを見ると、投資会社ごとにどの分野に注力して投資しているのかが一目でわかるので、かなりわかりやすいチャートの使い方でした。
カテゴリデータ同士の掛け合わせの際にはヒートマップが使われることが多いのですが、今回のようにカテゴリーの数が多い時はこの格子図を使うと非常に見やすいですね。
ちなみに、この格子図はExploratoryでは、バブルチャートを使ってX軸とY軸にカテゴリデータを割り当てることでできます。
チャートの見せ方や、丁寧なデータラングリング、そしてわかりやすい問題設定と頭にすっと入ってくるとても面白い分析でした。
keiさんは、ユニコーン企業のように若くて急激に成長している会社がある国は、将来性がある国としてどの国が将来性最強なのかを分析されています。
下記は、合計評価額の対GDPと対人口比をカスタムファンクションで求めてランキングにしたピボットテーブルです。ランキングの高い方が濃い色になっています。
keiさんのノートから引用します。
対GDP比が高いということは、経済規模に対するユニコーン合計評価額の割合が高いということなので、高ければ高いほどよいといえます。対人口比も高ければ高いほどよいと言えるでしょう。
MaltaやSingapore、Estoniaといった国から、USやChinaといったユニコーン大国がランキング上位のようです。
今回のように、GDPや人工といった外部データを使いながらも、それを上手くピボットテーブルのカスタムファンクションを使って比率を求めるあたりはさすがですね!
興味がある方は、keiさんのノートからEDFをダウンロードしてみてください!
Tanabeさんは、中国企業に絞って、
下記は、X軸に産業、Y軸に企業数、サイズに評価額を割り当てたバブルチャートです。
バブルチャートは、グループごとに集計した値をX軸とY軸の1にプロットして可視化することができるのが強みですが、X軸にカテゴリーを割り当てて比較するのも面白い使い方の一つですね。
今回のように、2つの国(グループ)を比較するときには、その位置関係が明確になるため非常に分かり易かったです。
そして、このチャートを見ると、米国ではFintechやInternet software & servicesがかなり多く中国とは雲泥の差があります。なぜ中国ではこれらの産業のユニコーン企業が輩出されないのか気になるところですが、tanabeさんは、参考資料をかなり調べて面白い仮説を出しているので、続きが気になる方は本編をご覧ください!
Takahashiさんは、
下記は、ユニコーンの企業数や、業種の数、投資会社数、評価額、評価額の最大値を元にPCAを欠けた結果です。
PCAにかける前に、国ごとに集計機能を使って、1行1カ国といったデータに加工されたようです。
アメリカはユニコーン企業数や、評価額の合計値は圧倒的に高いですが、評価額の最大値では中国のほうが高いことがわかります。
また、投資家の列には、複数の投資家がコンマ(,)で区切られて一列に格納されていたのですが、分割(separate)の機能を使って分けているのがグッドポイントですね!
他にも可視化をされているので気になる方は見てみてください!
Hideさんは、今波に乗っている中国と米国のユニコーン企業の比較しています。
このバーチャートでは、各産業の企業数の割合を国ごとに可視化しています。カテゴリー(X軸)ごとの割合を見る時は、バーチャートが比較もできてかなりわかりやすいですね。
このチャートを見ると、多くの産業は米国と中国で埋め尽くされています。日本はArtificial Inteligenceと、Mobile & telecommunicationsしかないですね。。
数で言うと圧倒的に多いのが米国ですが、Edtech、Hardware, Mobile & Telecomunications、Auto & Transportationといった産業は中国の企業の割合が米国よりも多いことがわかります。
Hideさんは、表計算やハイライトを使ってインパクトのある、そして直感的にわかりやすいチャートを使っていてグッドです!
Ikuyaさんは、日本のユニコーン企業数の少なさを問題とし、日本の特徴と似ていてかつユニコーン企業数の多い国はどこかを探索的にデータ分析していました。
このバーチャートは、それぞれの季節を祝日または平日で分割してレンタル数を時間ごとに可視化しています。
下記は、人口、国土面積、GDP、一人あたりのGDP、1平方kmあたりの人口をもとにPCAをしています。
これをみると、日本は中央に近い座標にプロットされ、クラスター3に属しています。
このクラスター3は、人口あたりのGDPが高いが、他のクラスターと比べて国土は狭く、人口密度は低めといった特徴があるようです。詳細は本編のPCAの箱ヒゲ図でご覧ください。
クラスター3にはGermanyやUKがいます。そして、この2つの国は、日本に比べてユニコーン企業数が圧倒的に多く、UKは19、Germanyは11もユニコーン企業数があります。
今回の分析では、ユニコーン企業のデータをPCAにかけるのではなく、人口やGDPなどといった外部データをPCAにかけて、特徴が似ている国を探したというのがインサイトをより面白くしていたと思います。
先月は、ユニコーンデータをもとにEDA Salonに挑戦してもらいました。
データにあるIndustryやSelected Investorsの列には、表記揺れがあったりとデータラングリングが大変なデータだったかと思います。
しかし、多くの方がしっかりと前処理をしていて、既存の値を置き換える機能や列を複数の列に分割する機能を使って分析のしやすい形にされていました。
データ分析は、ただ可視化やアナリティクスをするのではなく、適切なデータラングリングが必要であるというのを実感した回でした。
EDA Salonに挑戦してくださった皆様ありがとうございました!
次回もEDASalonでも楽しみにお待ちしています。
ところで、次回のEDA Salonのお題が決まりました!
次回のEDASalonのお題は、「Airbnbの東京の宿泊施設データ」です!
レビューの高い宿泊施設の特徴や、スーパーホストになるにはどうしたらよいかなどご自身の興味に合わせて探索的に分析してみてください!
Exploratoryでデータを可視化したり、分析したら、それをノートに簡単にまとめて、「EDASalon」というタグ付きでパブリッシュしてみて下さい!
EDA Salonへの参加方法の詳細は下記をご覧ください。
Exploratoryをまだお持ちでない方は、30日間の無料トライアルがありますので、この機会にサインアップしてぜひ試してみてください。
みなさんのご参加お待ちしております!