線形回帰の残差についての紹介

このノートでは、線形回帰での予測値と実測値のずれである「残差」についてご紹介します。

まずは、線形回帰について理解をするために、散布図を使って見ていきましょう。

今回はサンプルデータとして従業員データを使用していきます。

X軸に「勤続年数」を、Y軸に「給料」を割り当てた散布図があったとします。

この「勤続年数」と「給料」の関係性を直線の式で表したものを「回帰線」といい、今回の場合はその中でも「線形回帰」を使用しています。

線形回帰は各点からのずれが最小になるような直線を引きますが、このことを最小二乗法といいます。これによって、線形回帰の傾き(係数)や切片などを求めることができ、この回帰式を使って予測をしていくことができます。

残差とは何か

先ほどの散布図で勤続年数が「40年」のところに注目していきましょう。

線形回帰では、勤続年数が「40年」では給料が「19,934.27」になると予測されています。

一方で、現実のデータはばらつくため、同じ値になることは滅多にありません。例えば、下記のデータポイントに注目してみると、勤続年数は「40年」で給料は「10,312」となっています。

線形回帰の線と実測値でずれが生じていますが、このことを「残差」と言います。

線形回帰の予測モデルを作る際に「残差」に注目することで、「モデルの予測精度の評価」や「外れ値の検出」に使うことができます。

残差をデータとして求める

残差を求めるために、「アナリティクス・ビュー」から線形回帰のモデルを作成します。

線形回帰のモデルの作成方法については、こちらのノートをご覧ください。

線形回帰のモデルを作成できたら、「データ」タブを表示します。

「データ」タブでは、線形回帰のモデル作成時に使われていた変数、予測値やその信頼区間、残差などに関する指標をテーブル形式で確認できます。

今回の場合は「給料」が実測値となり、「Predicted Value」という列が予測値となります。

そして、「Residuals」という列が実測値から予測値を引いた「残差」になります。

標準化残差を使った外れ値検知

データタブには他にも指標があり、「標準化残差(Standardized Residuals)」を使うことで外れ値の検出を行うことが可能です。

標準化残差は、それぞれのデータポイントの「残差」を「残差の標準偏差」で割ったもので、各データポイントが残差の平均からどれくらい離れているかを表します。

残差を標準化(標準偏差の何倍分平均から離れているか)することで、それぞれのデータがどれくらい高いのか(または低いのか)を数値化することができます。もし値が正規分布の場合、標準偏差が「-2」から「2」の間に約95%のデータが含まれると言われています。

標準化残差を使って外れ値を検出する際に、一般的にはしきい値が絶対値として約2以上、または3以上として設定されます。

実際に、標準化残差の値が3を超えるようなデータを見ていくと、実測値と予測値に大きな乖離があることが確認できます。

もし、線形回帰の線と比べて外れているデータが欲しい場合は、エクスポートボタンから「データフレームとして保存」を行います。

アナリティクス結果をデータフレームとして保存する方法についての詳細は、こちらをご確認ください。

標準化残差がどのような分布になっているのかを確認するために、「チャート・ビュー」からチャートを作成します。

タイプに「ヒストグラム」を選び、X軸には「標準化残差(Standardized Residuals)」を選択します。

バーの数に「100」を指定して適用します。

標準化された残差は正規分布しているようで、ほぼすべての値が標準偏差-2から2の間に収まっているのが確認できました。

補足: クックの距離を使った外れ値検知

線形回帰での外れ値検知をする際の指標として、クックの距離(Cook's Distance)という指標もあります。

クックの距離は、回帰モデルの予測に与える影響の度合いを示す指標で、データ全体の残差の変動と、個々のデータポイントを除いた場合の残差の変動の比率に基づいて計算されます。

クックの距離の値が大きい場合、そのデータを除いた時には係数が大幅に変わるため、影響力が大きいと考えられます。

実際に、クックの値が高いデータを見ていくと、残差(Residuals)の値も大きく、実測値と予測値に乖離があることが確認できます。

一般的にはクックの距離はしきい値として「0.5」以上で影響力があり、「1.0」以上であると非常に大きな影響力があると言われています。クックの距離については、こちらの記事をご参照ください。

標準化残差とクックの距離について紹介してきましたが、一般的には、標準化残差が外れ値の特定に、クックの距離は外れ値の影響度合いを評価するために使用されます。

Export Chart Image
Output Format
PNG SVG
Background
Set background transparent
Size
Width (Pixel)
Height (Pixel)
Pixel Ratio