世界大学ランキングが伸びている大学の特徴を見つける
データの変数は以下の通りです。
変数名 | 意味 |
---|---|
year | 年度 |
world_rank | 大学ランキング(低いほど良い) |
university_name | 大学名 |
country | 国名 |
teaching | 大学の学習環境に関する得点 |
international | インターナショナル度に関する得点 |
research | 研究に関する得点 |
citations | 研究の影響度に関する得点 |
income | 民間へのナレッジトランスファーへの貢献に関する得点 |
total_score | 総合得点 |
num_students | 生徒数 |
student_staff_ratio | 大学スタッフに対する生徒の割合 |
international_students | インターナショナルな生徒の割合 |
female_male_ratio | 生徒の男女比 |
ひとまず年度ごとの大学数をみてみます。2012年から2015年にかけて大学数が全く変わらず、2016年でいきなり前年の2倍に増加していることに違和感がありますが、ひとまず増加傾向にあることが分かります。
今回のデータ分析の目的に照らし合わせて、年度ごとの大学ランキングデータを大学ごとにグルーピングしたデータに変換します。
university_name
で group_by するgrowth_rate
という変数として新たに追加student_staff_ratio
、international_students
、female_male_ratio
に関しては年度ごとに値が変わらないため、ラグはとらないis_growth
列を追加最終的にデータを以下のような形に加工します。
データの加工が完了したのでひとまず、大学ランキング成長率(平均)の分布を見てみます。平均が0に近く、おおよそ正規分布に近い分布になっていそうです。
大学ランキングとis_growth
の関係を見てみます。大学ランキングが伸びている大学はそうでない大学よりも大学ランキングが高いように見受けられます。
国ごとに確認してみると、シンガポールとヨーロッパ諸国の大学の大学ランキングの成長率が高いようです。
今度は Boruta
を使用して、 大学ランキング成長率に寄与している変数を自動的に計算して見つけ出します。 結果をみてみると、citations
とinternational_students
が大学ランキング成長率に対して重要度が高い変数となっているようです。
実際に、この二つの変数の関係とis_growth
をマッピングしてみてみます。 はっきりとした関係を読み取ることはできませんが、なんとなく、citations
とinternational_students
が高い大学は、成長している (is_growth
が TRUEになっている)ことが分かります。citations
は 「研究の影響度に関する得点」の伸び率の平均値です。 ※ データの加工でラグをとって前年度比率を算出した列です。
また、international_students
と growth_rate
の関係をみてみると今度はよりはっきりと international_students
が高ければ、growth_rate
が高い、つまり大学ランキングの成長率が高いことが分かります。
「World University Rankings」ランキングのデータを分析して以下のことが分かりました。