アワードを受賞したワインの中でアワードのランクを決める要因が地域差以外であるのかどうかを調べること
今回使用するデータには、アワードのランクとして以下のものがあります。
データの提供元 (https://data.world/rdowns26/sf-chronicle-wine-competition-results) を確認すると、以下のようなランク(降順)になっているようです。
今回はこれらのランクを高くする要因を調べるために、以下のように数値を割り当てた列 (award_score)を作成します。
Award | award_score |
---|---|
Best of Class | 5 |
Double Gold | 4 |
Gold | 3 |
Silver | 2 |
Bronze | 1 |
地域差以外の要因となりうる候補として考えられるのは、Price
とVintage
です。Vintage
は1999
のように年数になっておりそのままでは扱いにくいため、Award Year - (Vintage + 1)
として vintage_diff
を列を作成して分析に使用します。
award_score
をターゲット変数、 vintage_diff
と Price
列を説明変数として線形回帰分析モデルを作成します。
すると、Price
は正の相関が、vintage_diff
は負の相関があることがわかります。
ちなみにこれは地域 (Region
)列を追加しても同様です。
チャートビューで Price
、vintage_diff
、award_score
の関係をみてみます。
award_score
とPrice
を棒グラフをみてみると、award_score
が増加するほど、price
が増加している傾向にあることがわかります。
また、award_score
とvintage_diff
についてもみてみると、こちらも線形回帰モデルの結果通り、award_score
が増加すると、vintage_diff
が低いことがわかります。
ちなみに時系列(Award Year
)に沿って確認してみても、同様の傾向があることがわかります。 ただし、award_score
が 5 (つまり、Best of Class)の場合に限っては、特にprice
に関して、その傾向から外れることが多くなっています。