トレンドライン:線形回帰の引き方

数値型の列の間にある相関関係を見るための方法として、散布図にトレンドラインの線形回帰を引く方法をご紹介します。

今回はサンプルデータとして従業員データを使用していきます。

このデータは1行が1従業員で、列には年齢や勤続年数、給料などのデータがあります。

年齢と給料の関係を散布図(なし)を使って可視化したチャートが既にあるとします。

散布図(集計なし)の作り方については、こちらのノートをご覧ください。

この散布図を見ると年齢が上がるにつれて給料も上がる関係がありそうです。

果たして本当に年齢と給料には関係があると言えるのか、トレンドラインの線形回帰を引いて確かめてみます。

Y軸のメニューから、トレンドラインを選択します。

トレンドラインのサブメニューから「直線(線形回帰)」を選択します。

散布図にトレンドラインの線形回帰を引くことができました。

トレンドラインにマウスオーバーすると相関係数をみることができます。

相関係数は-1から1の間の値をとり、変数間の相関関係の強さと方向を示します。

  • 1に近いほど強い正の相関(一方が増加すると他方も増加)
  • -1に近いほど強い負の相関(一方が増加すると他方は減少)
  • 0に近いほど相関が弱い、または存在しない

そのため、今回の月収と年齢の相関係数は0.497のためやや強い正の相関があることがわかります。

トレンドラインにマウスオーバーすると、相関係数に加えて係数、R2乗とP値を確認できます。

係数

係数 は、線形回帰の傾きを表す値です。今回の係数は467.8で、これは年齢が1歳上がるごとに月収が約468ドル増える傾向があるということを意味します。

R2乗

R2乗(R²) は、相関係数(R)を2乗した値で、線形回帰の直線がデータのばらつきをどれだけうまく説明できているかを示します。0から1の間の値をとり、1に近いほど強い関係があり、ばらつきの説明ができていることを意味します。

例えば今回の相関係数が0.497の場合、R2乗は約0.247となり、給料のばらつきのうち約25%が年齢で説明できる、ということになります。

P値

P値 は、この相関関係が有意かを判断するための指標です。一般的にP値が0.05未満であれば2つの変数の間に統計的に意味のある関係があると判断します。

今回の年齢と給料の間のP値は6.6e-93と0に限りなく近いため、統計的に有意であると判断できます。

このR2乗や線形回帰の計算式は散布図のチャート上に表示することが可能です。

Y軸の下に表示されている「直線(線形回帰)」の緑のテキストをクリックすることでトレンドラインの設定ダイアログが表示されるため、「指標をプロット上に表示」にチェックをつけます。

これによって、左上(位置から変更可能)にR2乗と計算式が表示されるようになりました。

参考資料

以下に散布図に関する参考資料がございます。

  • 散布図(集計なし)の作り方 - リンク
  • 散布図(集計あり)の作り方 - リンク
Export Chart Image
Output Format
PNG SVG
Background
Set background transparent
Size
Width (Pixel)
Height (Pixel)
Pixel Ratio