2019年8月のEDAsalonのお題「世界の家畜生産量データ」(https://exploratory.io/note/GMq1Qom5tS/UTY2ATv6je)
今回は個人的に興味があり、1年前に訪れたモンゴル(mongolia)の家畜推移を追っていく。そして、この家畜推移がどのような因子によって変化したのかを分析する。
家畜生産量を前述の国内人口、政治・経済、天候との個別比較で、まず分析する。そして最終的にそれらを総合的に分析してみる。
1961年から2017年までのモンゴルの家畜生産量は下図のようになる。モンゴルの代名詞(?)ヤギ(Goats)と羊(Sheeps)が主要な家畜であることが分かる。1年前に訪れて実感したが、モンゴルでは依然として放牧・遊牧の文化が根強くあり、首都ウランバートルを流れる川のほとりにゲル(居住用テント)があったりする。
wasabi氏の投稿(https://exploratory.io/note/1021500949444839/OZZ4MVt0GA)
を参考にモンゴルの人口データを抽出する。
UNITED NATIONS-World Population Prospects 2019-からダウンロードできる「Total Population - Both Sexes (XLSX, 2.4 MB)」という名前のデータの「ESTIMATES」シートを利用する。235ヶ国の1950年から2020年までの人口推移が記録されている。それ以外の情報もあるが、必要な部分のみデータ加工によって抽出する。
下図がモンゴル国内の人口と家畜生産量(以降ヤギとヒツジのみを抽出して対象とする)の推移である。
United nationsのサイトから各国の経済指標のデータをダウンロード(今回はGDP and its breakdown at current prices in National currencyの項目を使用) https://unstats.un.org/unsd/snaama/Downloads
このデータの構造はyearが年ごとに列になっていて、経済指標(indicator)が行になっている。このままだと、扱いにくいデータなので、yearをgather関数でワイドからロング型に変換。indicatorをspread関数でロングからワイド型に変換した。
そして、これらのデータをgoatsとsheepの生産量データと”左結合”して分析を行った。
用意したデータには経済指標はたくさんあり、どれがどういう意味の指標なのか分からないので、とりあえずEDAとして線形回帰分析を行う。目的変数をGoatの生産量(production value)にして、説明変数に経済指標をすべて入れる。なお、前章で登場した国内人口(poulation)は強い有意な係数になることが分かったので、ここでは説明変数から省いた。 以下がその結果。Agriculture, hunting, forestroyのカテゴリが正の有意である。これはいわゆる”第一次産業”に属する産業である。そのことが分かると、ここに強い相関があることは当然といえば当然。
Agriculture, hunting, forestroyのカテゴリを説明変数から外した場合は下の結果。Mining, Manufacturing, Utilitiesのカテゴリ、WholeSale, Retail trade, Restaurants and Hotelsのカテゴリ、その他のカテゴリが負に有意な係数になっている。
Mining, Manufacturing, UtilitiesとWholeSale, Retail trade, Restaurantes and Hotelsのカテゴリは第二次産業に属しており、どちらも農業から工業、サービス業に人の雇用が移動することで、家畜の生産量が減少するという説明は理解しやすいと思う。
モンゴルの天候は世界の天候データツール(ClimatView 月統計値)からデータを手に入れた。 http://www.data.jma.go.jp/gmd/cpd/monitor/climatview/graph_mkhtml.php?&n=44292&p=999&s=4&r=1&y=2019&m=7&e=0&k=0&d=0
データには、1982年以降の月平均の温度が記録されている(ほかにも降雨量も含む)。以下のチャートは、それらの月平均気温をさらに抽象化して、年平均気温に丸めたデータとヤギとヒツジの生産量を並べたものである。 このチャートから、2003年と2009年頃の家畜の生産量低下は、年平均気温の低下が要因である可能性が高いことが分かる。特にモンゴルは、放牧・遊牧が盛んな国であり、ヤギもヒツジも鶏のように建物内で飼育できないため、天候の影響を受けやすいのだろう。
※複数列の一括集計は以下の記事を参考にした。 https://exploratory.io/note/kanaugust/ySa5vOu3BA
1.国内人口、2.政治・経済、3.天候の観点で、ヤギとヒツジの生産量を見ていった。最後の分析として、これらのデータを統合して、線形回帰分析してみる。
ここでは、 目的変数をヤギ生産量(Goats_value)、
説明変数を
* 国内人口(population)
* 第一次産業:農業(Agriculture, hunting, forestroy)
* 第二次産業:工業(Mining, Manufacturing, Utilities)
* 第三次産業:サービス業(WholeSale, Retail trade, Restaurantes and Hotels)
* 年平均気温(temperature_average)
にした。
以下、その結果である。R2乗エラーは0.95と、1に近い数字になっているので、予測はうまくできているようだ。
RMSE(root mean squared error)は約148万[頭]。うーん。ピークの生産量が2500万頭程度なので、5%くらいの誤差と考えればよいか。
P値は十分に低い(線形回帰のP値の算出方法は今後学ぶ)
三つの変数が有意な係数であるようだ。 この係数の解釈は
* 年平均気温が1℃上がると、ヤギの生産量は約49万頭増加する。(UP)
* 国内人口が1000人増えると、ヤギの生産量は約1.6万頭増加する。(UP)
* サービス業の生産量が1%増えると、ヤギの生産量は15万頭減少する。(DOWN)
前章では、有意な係数になっていた第一次産業の農業(Agriculture, hunting, forestroy)が有意な係数になっていない。これは、この因子が、ほかの因子と相関関係・因果関係になっていたことが考えられる。特に天候という因子は農業の因果(元)に十分なり得そうだ。
モンゴルのヤギとヒツジは天候に強く影響を受けている。 生産施設や飼育方法でこれらの相関関係が変化するのか。また、これがほかの国でも同じような特徴なのか気になるところだ。
モンゴルの経済データから、産業構造の推移を見てみた。下図では、第一次産業(ISIC A-B)と第二次産業(ISIC C-E, ISIC G-H)のGDPに対する割合とGDP自体を示している。第二次産業が年々減っている一方で、第一次産業は変化無し或いは増加傾向にあるように見える。
モンゴルは多くの草原・高原を有している。これらを生かした産業として第一次産業が盛り返すのは、妥当な話だろう。一方で、最近では、その寒冷な天候を生かして、仮想通貨のマイニング施設の誘致・建設という話もあるとかないとか・・・。モンゴル、今後どうなるでしょうね。
left-join処理
ピボットテーブル
複数列に対する一括集計
時系列データに対して、線形回帰分析が妥当かどうか。関連するほかの予測モデルを調べる。
線形回帰のP値の算出方法