World University Rankings

目的

世界大学ランキングが伸びている大学の特徴を見つける

データの理解と加工

データの変数は以下の通りです。

変数名	意味
year	年度
world_rank	大学ランキング(低いほど良い)
university_name	大学名
country	国名
teaching	大学の学習環境に関する得点
international	インターナショナル度に関する得点
research	研究に関する得点
citations	研究の影響度に関する得点
income	民間へのナレッジトランスファーへの貢献に関する得点
total_score	総合得点
num_students	生徒数
student_staff_ratio	大学スタッフに対する生徒の割合
international_students	インターナショナルな生徒の割合
female_male_ratio	生徒の男女比

ひとまず年度ごとの大学数をみてみます。2012年から2015年にかけて大学数が全く変わらず、2016年でいきなり前年の2倍に増加していることに違和感がありますが、ひとまず増加傾向にあることが分かります。

今回のデータ分析の目的に照らし合わせて、年度ごとの大学ランキングデータを大学ごとにグルーピングしたデータに変換します。

university_name で group_by する
各種変数のラグをとって前年度比率 ((前年度 - 年度) / 年度 )を出す
ただし、“world_rank”に関しては、低いほど良いので (年度 - 前年度) / 年度で算出し、growth_rateという変数として新たに追加
student_staff_ratio、international_students、female_male_ratio に関しては年度ごとに値が変わらないため、ラグはとらない
最終的に１大学１レコードに変換するために、数値型の列はラグデータごとの平均値、文字列型の列はそのままの値に集計処理する
集計処理後 growth_rateの平均が0以上であれば TRUE、 0より小さければ FALSEの値をとる is_growth列を追加

最終的にデータを以下のような形に加工します。

加工後のデータの理解

データの加工が完了したのでひとまず、大学ランキング成長率(平均)の分布を見てみます。平均が0に近く、おおよそ正規分布に近い分布になっていそうです。

大学ランキングとis_growthの関係を見てみます。大学ランキングが伸びている大学はそうでない大学よりも大学ランキングが高いように見受けられます。

国ごとに確認してみると、シンガポールとヨーロッパ諸国の大学の大学ランキングの成長率が高いようです。

大学ランキング成長率に寄与している変数

今度は Boruta を使用して、大学ランキング成長率に寄与している変数を自動的に計算して見つけ出します。結果をみてみると、citationsとinternational_studentsが大学ランキング成長率に対して重要度が高い変数となっているようです。

実際に、この二つの変数の関係とis_growthをマッピングしてみてみます。はっきりとした関係を読み取ることはできませんが、なんとなく、citationsとinternational_students が高い大学は、成長している (is_growthが TRUEになっている)ことが分かります。citations は「研究の影響度に関する得点」の伸び率の平均値です。 ※ データの加工でラグをとって前年度比率を算出した列です。

また、international_students と growth_rateの関係をみてみると今度はよりはっきりと international_studentsが高ければ、growth_rateが高い、つまり大学ランキングの成長率が高いことが分かります。

まとめ

「World University Rankings」ランキングのデータを分析して以下のことが分かりました。

大学ランキング成長率が高い大学は、「研究の影響度の高さ」に関する得点が伸びている、international な生徒の割合が高いことが特徴としてあげれられる
また、国ごとに確認するとシンガポールとヨーロッパ諸国の大学の大学ランキングの成長率が高い