世界中の大学のランキングデータが手に入ったので分析してみることにしました。このデータには全体でのランキングもあるのですが、それぞれの指標、例えば、研究、国際性、といったものに対するそれぞれの大学のスコアも入っています。
そこで、今回の分析の目的としてどのように大学のそういった指標に対するスコアには、地域的なパターンがあるのかどうかということを調べたいと思います。
例えば、アメリカの大学とアジアの大学では得意とすることとそうでないことによっての違いがあるのでしょうか?
もしそうであれば、どういった指標によってそういった違いが出てくるのでしょうか。
今回のデータはこちらのKaggleのサイトからダウンロードしたのですが、もともとは、The Times Higher Educationという組織が集めているデータを取ってきたようです。
“The Times Higher Education World University Ranking is widely regarded as one of the most influential and widely observed university measures. Founded in the United Kingdom in 2010, it has been criticized for its commercialization and for undermining non-English-instructing institutions.”
このデータの中には以下のような指標があります。
そしてそれぞれの大学がそれぞれの指標に対してのスコアを持っています。
これらの指標を使って、それぞれの大学がどのへんにいるのかというのを2次元で表し、そこにそれぞれの大学がどの地域に属しているのかという情報を重ねることで、それぞれの地域がどういった特徴を持っているかということを、掴んでみようと思いました。
そこで、今回はPCA (Principal Component Analysis) 、もしくは日本語で主成分分析とよばれるアルゴリズムを使って分析してみました。
これを使うことで、指標間の相関関係をもとに指標間の位置関係をつかむことができ、さらにそのもととなる観察対象、今回の場合はそれぞれの大学がそういった指標間の関係の中でどのへんに位置するかということを可視化できます。
全ての指標の入ったデータをPCAのアルゴリズムにかけ、その結果を2次元の座標空間で可視化すると以下のようなチャートが得られます。
ここに地域を色として掛け合わせると、以下のようになります。
それでは、それぞれの地域ごとの違いを簡単に見ていっていましょう。
こちらが、United States(アメリカ)と、Europe(ヨーロッパ)と、Asia(アジア)だけを残したものです。
紫色のUnited StatesはTeaching(教える)とResearch(研究)で高いスコアを出している大学が多いという傾向があります。
赤色のヨーロッパは、International(国際性)とFemale Ratio(女性率)が高い大学が多い傾向があるようです。
逆に緑色のアジアはMale Ratio(男性率)が高い大学が多いようです。
ヨーロッパとアジアの大学の多くは研究と教えるという2つの指標において低い評価の大学が多いというのが少し意外です。
以下は、さらにヨーロッパを除いて、アメリカとアジアだけを残したものです。
もちろん、だからといって全てのアジアの大学が研究や教えるということに関して評価が低いというわけではありません。
以下はアジアだけを残したものですが、中には研究や教えるという指標において高い評価を受けているアジアの大学もあるようです。
それでは、これらはどこの大学でしょうか?
こちらがアジアのデータだけに対してPCAをかけそれを2次元の座標空間で可視化したものです。
紫色のシンガポールと緑色の香港が国際性、サイテーション、女性率で高く評価されている大学がけっこうあるようです。
それに対して、日本の大学は男性率が高い大学が多く、さらに国際性、サイテーションという指標に関しては低い大学が多いのがわかります。
アメリカの大学は研究や教えることに関して高く評価されている大学が多いようです。他の地域にもこうした点で高い評価を受けている大学もあるようですが、それは一部の国、例えばアジアだとシンガポールや香港にかたよっているようです。
逆に日本の大学の多くは研究や教えることに関してあまり高く評価を受けていないというのに驚きました。さらに他の地域や国と比べて男性率が多いというのも意外な発見でした。