• ランキング入りしている大学を地域で比べた時に特徴的な地域はあるのか
    • 目的
      • データをチェックする
    • 大陸を予測するモデルをつくって、大陸を予測するえで重要な変数を確認する
    • 変数重要度の高い変数に絞って、箱ヒゲ図で可視化する
    • 結論

ランキング入りしている大学を地域で比べた時に特徴的な地域はあるのか

目的

大学ランキングに入っている大学を地域で比べた時に特徴的な地域がないか見ていきます。

データをチェックする

まずはRankingデータに文字が入っていたり、範囲を示すような表記があるので以下のように少し綺麗にしたいと思います。

次に年毎にランキング入りしている大学の数の分布を見ていきます。2011年から2012年にかけてと、2015年から2016年にかけて大学数が大きく増えていることが分かります。ただ今こが何を意味しているかは分かりませんが念の為メモとして残しておきます。

2011201220132014201520160100200300400500600700800
year(Number of Rows)

次にどの国がランキングに占める割合が大きいかを年ごとに見ていきたいと思います。

Showing 68 rows, 6 columns
year
country_2
2011
2012
2013
2014
2015
2016
Total
United States
36%
28.11%
27.75%
27.25%
26.93%
18.38%
164.42%
United Kingdom
14.5%
12.94%
12%
12.25%
11.22%
9.75%
72.66%
Germany
7%
5.47%
6.25%
6.5%
6.98%
4.63%
36.83%
Australia
3.5%
5.22%
4.75%
4.75%
4.99%
3.88%
27.09%
China
5%
3.98%
3.75%
4%
4.49%
5.5%
26.72%
Canada
4.5%
4.48%
4.75%
4.75%
4.49%
3.13%
26.09%
Japan
2.5%
3.98%
3.25%
2.75%
2.99%
5.13%
20.6%
Netherlands
5%
3.23%
3.25%
3.25%
3.24%
1.63%
19.6%
Italy
 
3.48%
3.5%
3.75%
4.24%
4.25%
19.22%
France
2%
1.99%
3%
2.75%
2.74%
3.38%
15.86%
Sweden
3%
2.49%
2.5%
2.5%
2.49%
1.38%
14.36%
Taiwan, Province of China
2%
1.99%
1.75%
2%
1.5%
3%
12.24%
Korea, Republic of
2%
1.74%
1.5%
1.75%
2.24%
3%
12.24%
Switzerland
3%
1.74%
2%
2%
2%
1.25%
11.99%
Spain
1%
1.99%
1.75%
2.25%
1.5%
3.13%
11.61%
Belgium
1%
1.74%
1.75%
1.75%
1.75%
0.88%
8.86%
Turkey
1%
1%
1.25%
1.25%
1.5%
1.38%
7.37%
Austria
1%
1.24%
1.5%
1.5%
1.25%
0.88%
7.37%
Denmark
1.5%
1.24%
1.25%
1.25%
1.25%
0.75%
7.24%
Ireland
1%
1.24%
1.25%
1.25%
1.25%
1.13%
7.12%
Finland
0.5%
1.24%
1.25%
1.25%
1.75%
1.13%
7.11%
New Zealand
0.5%
1.49%
1.5%
1.25%
1.25%
0.88%
6.86%
India
 
0.25%
0.75%
1.25%
1%
2.13%
5.37%
Norway
0.5%
1%
1%
1%
1%
0.5%
4.99%
South Africa
0.5%
0.75%
1%
0.75%
0.75%
0.75%
4.49%
Brazil
 
0.5%
0.5%
0.5%
0.5%
2.13%
4.12%
Israel
 
1%
0.75%
0.75%
0.75%
0.75%
3.99%
Portugal
 
1%
0.75%
0.5%
0.5%
0.88%
3.62%
Russian Federation
 
0.5%
0.5%
0.25%
0.5%
1.63%
3.37%
Singapore
1%
0.5%
0.5%
0.5%
0.5%
0.25%
3.25%
Poland
 
0.5%
0.5%
0.25%
0.25%
0.88%
2.37%
Iran, Islamic Republic of
 
0.25%
0.25%
0.25%
0.5%
1%
2.25%
Czechia
 
0.25%
0.25%
0.25%
0.25%
1.13%
2.12%
Greece
 
0.25%
0.25%
0.25%
0.25%
0.88%
1.87%
Thailand
 
0.25%
0.25%
0.25%
0.25%
0.88%
1.87%
Chile
 
0.25%
 
 
0.25%
0.75%
1.25%
Saudi Arabia
 
 
0.25%
0.5%
 
0.38%
1.13%
Egypt
0.5%
0.25%
 
 
 
0.38%
1.12%
Iceland
 
0.25%
0.25%
0.25%
0.25%
0.13%
1.12%
Colombia
 
 
0.25%
0.25%
0.25%
0.25%
1%
Estonia
 
0.25%
0.25%
0.25%
 
0.25%
1%
Hungary
 
 
 
 
 
0.75%
0.75%
Malaysia
 
 
 
 
 
0.63%
0.63%
Mexico
 
 
0.25%
 
 
0.25%
0.5%
Romania
 
 
 
 
 
0.5%
0.5%
Morocco
 
 
 
 
0.25%
0.13%
0.37%
Jordan
 
 
 
 
 
0.25%
0.25%
Pakistan
 
 
 
 
 
0.25%
0.25%
Slovakia
 
 
 
 
 
0.25%
0.25%
Slovenia
 
 
 
 
 
0.25%
0.25%
Ukraine
 
 
 
 
 
0.25%
0.25%
United Arab Emirates
 
 
 
 
 
0.25%
0.25%
Argentina
 
 
 
 
 
0.13%
0.13%
Bangladesh
 
 
 
 
 
0.13%
0.13%
Belarus
 
 
 
 
 
0.13%
0.13%
Cyprus
 
 
 
 
 
0.13%
0.13%
Ghana
 
 
 
 
 
0.13%
0.13%
Indonesia
 
 
 
 
 
0.13%
0.13%
Kenya
 
 
 
 
 
0.13%
0.13%
Latvia
 
 
 
 
 
0.13%
0.13%
Lebanon
 
 
 
 
 
0.13%
0.13%
Lithuania
 
 
 
 
 
0.13%
0.13%
Luxembourg
 
 
 
 
 
0.13%
0.13%
Nigeria
 
 
 
 
 
0.13%
0.13%
Oman
 
 
 
 
 
0.13%
0.13%
Qatar
 
 
 
 
 
0.13%
0.13%
Serbia
 
 
 
 
 
0.13%
0.13%
Uganda
 
 
 
 
 
0.13%
0.13%
Total
100%
100%
100%
100%
100%
100%
600%
country_2
2011
2012
2013
2014
2015
2016
Total

そうすると、アメリカやイギリスなどいくつかの特定の国の割合が高いことが確認できました。更に2016年にいくつかの新しい国が追加されていることも分かります。こちらも背景は分かりませんがメモとして残しておきます。

続いて、先程の集計結果をより大きな枠組みである大陸レベルで集計したいと思います。そうすると、アジアの割合が2016年に大きく増えていることが確認できます。もしかすると、大陸レベル何らかのトレンドがあるのかもしれません。

Showing 6 rows, 6 columns
year
CC_first
2011
2012
2013
2014
2015
2016
Total
AF
1%
1%
1%
0.75%
1%
1.75%
6.49%
AS
13.5%
15.42%
14.75%
15.5%
16.21%
27.13%
102.51%
EU
41%
43.53%
44.5%
45%
44.14%
41.38%
259.55%
NA
40.5%
32.59%
32.75%
32%
31.42%
21.75%
191.01%
OC
4%
6.72%
6.25%
6%
6.23%
4.75%
33.95%
SA
 
0.75%
0.75%
0.75%
1%
3.25%
6.49%
Total
100%
100%
100%
100%
100%
100%
600%
CC_first
2011
2012
2013
2014
2015
2016
Total

大陸を予測するモデルをつくって、大陸を予測するえで重要な変数を確認する

データの分布は理解できたので、次はいよいよ大陸毎を予測するモデルをつくってどの変数重要度が高いかを見ていきます。上記を検討するうえで、今回は大陸毎にどんな特徴があるかを知りたいので、RankingやTotal scoreは除外していきます。

加えてInternational ScoreとInternational_student_ratioとの間に強い相関があったので、International score は説明変数から抜きます。

※Internatinal_students_ratioは新たにつくった列です。

International_students_ratiostudent_staff_ratiofemale_ratiocitationsnum_studentsresearchteachingincome68101214161820
ConfirmedTentativeRejectedVariablesImportances

年ごとに傾向が違うこともありうるかと思ったので、年ごとにモデルも作成しました。

International_students_ratiostudent_staff_ratiocitationsfemale_ratioteachingincomenum_studentsresearch0246810121416International_students_ratiostudent_staff_ratiocitationsfemale_ratioteachingincomenum_studentsresearch0246810121416International_students_ratiostudent_staff_ratiocitationsfemale_ratioteachingincomenum_studentsresearch0246810121416International_students_ratiostudent_staff_ratiocitationsfemale_ratioteachingincomenum_studentsresearch0246810121416International_students_ratiostudent_staff_ratiocitationsfemale_ratioteachingincomenum_studentsresearch0246810121416
ConfirmedTentativeRejected20122013201420152016Importances

年ごとに大きく傾向が変わっていることはなさそうなので、以降は年は考慮に入れず、下記、上位4つの変数に絞って深掘りしていきたいと思います。

変数重要度の高い変数に絞って、箱ヒゲ図で可視化する

今回注目した4つの変数は指数型の分布は特にしていないので、各変数を正規化したうえで、バイオリン図でどのような分布になっているか可視化していきたいと思います。

AFASEUNAOCSA−4−3−2−101234
citationsfemale_ratioInternational_students_ratiostudent_staff_ratioCC_firstvalue

結論

一見すると差がないように見えますが、例えばfemail_ratioに絞って見てます。

AFASEUNAOCSA−4−3−2−101234
citationsfemale_ratioInternational_students_ratiostudent_staff_ratioCC_firstvalue

そうするとSA(南アメリカ)の女性比率が他大陸と比べると、低いように見受けられ、AS(アジア)の大学も若干女性比率が低めに分布しているように見受けられます。母数が少ないということもあるかと思いますが私の想像とは異なり、AF(アフリカ)の女性比率SAやASと比べ高めに分布しているようです。

今度はinternational_sutdents_ratioに注目して見ていきます。

AFASEUNAOCSA−4−3−2−101234
citationsfemale_ratioInternational_students_ratiostudent_staff_ratioCC_firstvalue

そうすると、AF(アフリカ)・AS(アジア)・SA(南アメリカ)の大学はEU(ヨーロッパ)NA(北アメリカ)と比べるとinternational_ratioが低いように見受けられます。

今回は4変数にしか注目はしていませんが、SA(南)においてランキング入している大学は他大陸と比べfemale_ratioやinternatinal_students_ratioが低いという特徴を持っているということが言えそうだということが分かりました。