EDA Salon 2019年7月のまとめ

先月は、世界の大学ランキングをもとに探索的にデータ分析をしてもらいました。

EDA Salonで投稿していただいたインサイトを、もっとも印象的だったベストチャートとともに、ハイライトとして紹介していきます!

それではみていきましょう!

ハイライト

旧帝国大学は研究に強い大学なのか

wasabiさんは「旧帝国大学は研究に強い大学なのか」というテーマのもと、帝国大学(東大や京大、九大など)に焦点を置いてそれぞれのスコアを可視化していました。

一変数(箱ひげ図)、二変数(ピアソンの積率相関)、多変数(PCA)と順を追って可視化していくのは、とてもわかりやすい可視化の方法だと感じました。

PCA(主成分分析)にてクラスタリングした結果を見ると、旧帝国大はteachingやresearch、citationのスコアが高いという結果が読み取れます。

続きが気になる方はこちらをご覧ください!

スーパーグローバル大学の各大学の特色について

wasabiさんの続編です! スーパーグローバル大学について各スコアを箱ひげ図やラインチャートを使って可視化しています。

私自身スーパーグローバル大学を知らなかったので、wasabiさんのノートを引用させていただきます。

スーパーグローバル大学とは、2014年(平成26年)年から始まった文部科学省のスーパーグローバル大学創成支援という取り組みにおいて、日本国外の大学との連携などを通じて、徹底した国際化を進めて、世界レベルの教育研究を行う大学のことを指す。

下記の箱ひげ図は、各スーパーグローバル大学のincomeの分布を表しています。

東京大学や京都大学が高いのかと思いきや、名古屋大学が中央値では一番高いようです。驚きですね。名古屋大学のincomeが高くなった要因が気になる方は、ぜひ下記のノートもみてみてください!

続きが気になる方はこちらから。

国別に見る大学の研究成果の社会・企業への還元の状況

tanabeさんは、今回のブートキャンプの参加者で、ブートキャンプ参加前と後にEDASalonに挑戦していただきました。

この投稿では、大学の研究成果が社会や企業へ還元されているのかをテーマに設定し、線形回帰を用いて分析していました。面白いテーマ設定ですね!

下記のチャートは、主要4カ国のtotal_scoreとincomeの関係性を散布図で表したものです。

X軸にincome、Y軸にtotal_scoreが割り当てられた散布を見ると、日本ではinocomeとtotal_scoreの間に負の相関関係があるようです。つまり、大学の総合スコアが上がるにつれて収入が減っていくという傾向があるようです。意外ですね。

数値型の変数間の関係を見るときは、散布図がわかりやすいですね。

続きが気になる方はこちらをご覧ください。

日本の大学の稼ぐ力を比較してみた

tanabeさんの続編です!

主要4ヶ国に絞って、incomeのスコアをバイオリン図で可視化し、繰り返しを使って年ごとにチャートを分けています。

バイオリン図をみると、ChinaやJapanはデータの数が少ないように感じますが、確かにincomeの中央値は高いようです。

続きが気になる方はこちらをご覧ください。

また、tanabeさんの最初の投稿はこちらです。

いい大学を出るといい給料をもらえるのか

Togashiさんも、今回のブートキャンプ参加者です!

大学ランキングTOP100以下の大学は給料のスコアが高いのかを分析しています。わかりやすいテーマ設定ですね。

大学ランキングTOP100以下にTRUE、それ以外をFALSEにした論理値をランダムフォレストの目的変数としています。

結果を見ると、TOP100の大学には多くの変数が影響しているようですが、特にcitationやresearch、internationalが重要なようです。

TOP100などの数値を論理値にすることで基準を設定できるため、ランダムフォレストで出た結果の解釈がしやすくなりますね。

続きが気になる方はこちらをご覧ください。

世界のトップ大学のランキングデータの分析

続いて、弊社のKan nishidaによる投稿です!

全体でのPCA(主成分分析)、大陸ごとのPCA、アジアの国に絞ってのPCAと段階的にみています。

下記のチャートは、アジアの国に絞ってPCAをかけた結果です。

これを見ると、日本の大学は男性率が高い大学が多く、さらに国際性、citationという指標に関しては低い大学が多いようです。

PCAもこのように、色に分割を活用して段階的にみていくことで国や大学ごとにどのような特徴があるのか見ることができますね。

続きが気になる方はこちらから

大学ランキングTOP50の大学はどのスコアが高いのか

最後に、私(白戸)の投稿ですが、紹介させていただきます。

EDAしている際に気になった、優秀な教授がいる大学は、その授業を受けたいために世界からTOP学生が集まるのではないかという仮説を検証するために、線形回帰をかけてみました。

下記のスクリーンショットは、目的変数をinternational_studentsにして、線形回帰をかけた結果です。

これを見ると、teachingが高くなると、international_studentsのスコアも高くなるという結果がわかりました。

確かに面白い授業や教授がいる大学にいきたくなりますよね?

続きが気になる方はこちらから!

Exploratoryデータサイエンス勉強会での発表

7/29に開催したデータサイエンス勉強会では、Wasabiさんの「旧帝国大学は研究に強い大学なのか」を紹介させていただきました。

wasabiさんの段階的に変数の関係性を見ていく、チャートやアナリティクスの使い方はとても参考になりました!

次回8月のお題決定!

ところで、次回のEDA Salonのお題が決まりました!

次回のEDASalonのお題は、「世界の家畜生産量データ」です!

どのような種類の家畜の生産量が増えているのか、もしくは減っているのかなどご自身の興味に合わせて探索的に分析してみてください!

EDA Salonへの参加方法

また、Exploratoryでデータを可視化したり、分析したら、それをノートに簡単にまとめて、「EDASalon」というタグ付きでパブリッシュしてみて下さい!

EDA Salonへの参加方法の詳細は下記をご覧ください。

みなさんのご参加お待ちしております!