正規性検定の紹介

統計的仮説検定には、t検定や分散分析(ANOVA)といった「母集団が正規分布に従う」ことを前提にした手法がありますが、正規性検定では、データの母集団が正規分布に従っているかどうかを調べられます。

サンプルデータ

今回はサンプルデータとして、従業員データを使用していきます。

このデータは1行が1従業員のデータで、列には年齢や給料、職種など従業員の属性を表す列があります。

正規性検定を実行する

今回は、以下の変数の母集団の分布が正規分布に従っているかどうかを確認します。

アナリティクスビューを開き、タイプに「正規性検定」を選択します。

続いて、変数の列を選択します。

「年齢」「給料」「勤続年数」「家からの距離」を選択します。

データをサンプルしたいときには、「データをサンプル」するから行数を指定します。今回は「30」と入力し、実行ボタンをクリックします。

「年齢」「給料」「勤続年数」「家からの距離」の母集団が正規分布に従っているかを調べるため正規性検定が実行されました。

結果の解釈

サマリ

「サマリ」タブでは、検定の結果が有意かどうかを確認できます。「変数の母集団の分布が正規分布である」ことを前提(帰無仮説)にしたときに、この結果が得られる確率を表すP値から、有意かどうかを判断することができます。

今回のデータでは、「年齢」のP値が0.05(5%)を上回っているため、「正規分布に従わないとは言えない」ことになり、母集団が正規分布に従っていると言えます。

Q-Qプロット

「Q-Qプロット」タブでは、正規性検定を実行した手元のデータを使って描いた累積分布の「実測値」と、「データが正規分布である」と仮定した場合の累積分布の期待値をリファレンスラインで表現したチャートです。

実測値がリファレンスラインに沿っているほど、データの母集団が正規分布に近いという解釈ができます。

ヒストグラム

ヒストグラムでは、「変数の列」に選択した列の、データをサンプルする前の分布を確認できます。このとき、正規分布と言える変数は青色で表示され、正規分布とは言えない変数がグレーで表示されます。

参考資料

正規性検定に関する参考資料は下記をご覧ください。

Export Chart Image
Output Format
PNG SVG
Background
Set background transparent
Size
Width (Pixel)
Height (Pixel)
Pixel Ratio