アワードを受賞したワインの中でアワードのランクを決める要因が地域差以外であるのかどうかを調べること
今回使用するデータには、アワードのランクとして以下のものがあります。
データの提供元 (https://data.world/rdowns26/sf-chronicle-wine-competition-results) を確認すると、以下のようなランク(降順)になっているようです。
今回はこれらのランクを高くする要因を調べるために、以下のように数値を割り当てた列 (award_score)を作成します。
| Award | award_score |
|---|---|
| Best of Class | 5 |
| Double Gold | 4 |
| Gold | 3 |
| Silver | 2 |
| Bronze | 1 |
地域差以外の要因となりうる候補として考えられるのは、PriceとVintageです。Vintageは1999のように年数になっておりそのままでは扱いにくいため、Award Year - (Vintage + 1) として vintage_diffを列を作成して分析に使用します。
award_score をターゲット変数、 vintage_diff と Price列を説明変数として線形回帰分析モデルを作成します。
すると、Priceは正の相関が、vintage_diffは負の相関があることがわかります。
ちなみにこれは地域 (Region)列を追加しても同様です。
チャートビューで Price、vintage_diff、award_scoreの関係をみてみます。
award_scoreとPriceを棒グラフをみてみると、award_score が増加するほど、priceが増加している傾向にあることがわかります。
また、award_scoreとvintage_diff についてもみてみると、こちらも線形回帰モデルの結果通り、award_score が増加すると、vintage_diffが低いことがわかります。
ちなみに時系列(Award Year)に沿って確認してみても、同様の傾向があることがわかります。 ただし、award_score が 5 (つまり、Best of Class)の場合に限っては、特にpriceに関して、その傾向から外れることが多くなっています。