TOP50の大学に論理値でTRUE/FALSEをいれた。
ランダムフォレストで目的変数をTOP50にしてみてみる。
researchとteachingとcitationsの変数が影響度が高いことがわかった。
予測影響度で確認
たしかに、先ほどの変数がTOP50に影響しているようだ。
次に、ロジスティック回帰で目的変数:TOP50にしてみてみる。
以下の4点が、大学ランキングに影響を及ぼしている。
チャートで確認してみる。 X軸にteaching、Y軸にresearch、サイズにcitations、色にworld_rankのint(10)にしている。
ランキングが高いほどこれらの数値の水準が高いことがわかった。
これらの結果を見て、優秀な教授がいる大学は、その授業を受けたいために世界のTOP学生が集まるのではないかという仮説が浮かんだ。
目的変数を:international_studentsにして線形回帰をかけてみる。
Internationalとteachingがpositiveで有意に、num_studentsとincome、female_ratioがNegativeで有意になっている。
そのため、teachingが高くなると、international_studentsが増えるということがわかった。
地域的なパターンを見ていくために、地域ごとに値を集計してK-meansでクラスタリングしていく。
K-meansをみてみると、
マップで見てみる
国土面積と大学のランキングに入っている大学数が比例しているように見える。(日本は例外)
また、アフリカからのランク入りは少ないが、ヨーロッパは多く見える。 先進国と途上国で教育の格差があるからかもしれない。