Wine Contest Data Analysis

目的

アワードを受賞したワインの中でアワードのランクを決める要因が地域差以外であるのかどうかを調べること

分析

今回使用するデータには、アワードのランクとして以下のものがあります。

Loading...

データの提供元 (https://data.world/rdowns26/sf-chronicle-wine-competition-results) を確認すると、以下のようなランク(降順)になっているようです。

  1. Best of Class
  2. Double Gold
  3. Gold
  4. Silver
  5. Bronze

今回はこれらのランクを高くする要因を調べるために、以下のように数値を割り当てた列 (award_score)を作成します。

Award award_score
Best of Class 5
Double Gold 4
Gold 3
Silver 2
Bronze 1

地域差以外の要因となりうる候補として考えられるのは、PriceVintageです。Vintage1999のように年数になっておりそのままでは扱いにくいため、Award Year - (Vintage + 1) として vintage_diffを列を作成して分析に使用します。

award_score をターゲット変数、 vintage_diffPrice列を説明変数として線形回帰分析モデルを作成します。

Loading...

すると、Priceは正の相関が、vintage_diffは負の相関があることがわかります。

ちなみにこれは地域 (Region)列を追加しても同様です。

Loading...

チャートビューで Pricevintage_diffaward_scoreの関係をみてみます。

award_scorePriceを棒グラフをみてみると、award_score が増加するほど、priceが増加している傾向にあることがわかります。

Loading...

また、award_scorevintage_diff についてもみてみると、こちらも線形回帰モデルの結果通り、award_score が増加すると、vintage_diffが低いことがわかります。

Loading...

ちなみに時系列(Award Year)に沿って確認してみても、同様の傾向があることがわかります。 ただし、award_score が 5 (つまり、Best of Class)の場合に限っては、特にpriceに関して、その傾向から外れることが多くなっています。

Loading...
Loading...

Conclution

  • 地域差に影響を受けずに、Award のランクが高くなればなるほど価格が高くなり、成熟度(Vintage) が低い傾向にある
  • ただし、最高位の Award に関しては、若干その傾向から外れることがあり、他の要因に影響を受けやすい可能性がある