データがまだないときに必要なサンプルサイズを見積もる方法

Exploratoryのt-Test, ANOVA, カイ二乗検定の検出力分析では、許容できるタイプ2エラーの確率などの情報を指定することによって、必要なサンプルサイズを見積もることが出来ますが、そもそもアナリティクスビューを開くためのデータがまだない、という状況があると思います。

そうしたときの一つの方法として、ExploratoryがUIをとおして呼び出しているpwr Rパッケージの関数を直接ノートから呼び出すという手段があります。

たとえば、カイ二乗検定で、以下の条件で必要なサンプルサイズを見積もりたいときは、以下のスクリプトをノート上で実行します。

pwr::pwr.chisq.test(w=0.1,sig.level=0.05,power=0.9,df=1)

こちらのボタンをクリックすると、Rスクリプトを貼り付けるための書式がノートエディター内に書き込まれますので、その中に上のスクリプトを貼り付けます。

以下が、これを実行したところです。

## 
##      Chi squared power calculation 
## 
##               w = 0.1
##               N = 1050.742
##              df = 1
##       sig.level = 0.05
##           power = 0.9
## 
## NOTE: N is the number of observations

必要なサンプルサイズは1051 (1050.742)と見積もられました。

補足:効果量Cohen’s w

Cohen’s wは、サンプル一つあたりが寄与する平均的なカイ二乗値の平方根、として定義されます。カイ二乗検定の検出力分析においては、どの程度の大きさの期待される値からのズレを気にするのかを、Cohen’s wで指定します。

Cohen’s wの値を決める目安として、以下の推奨値があります。

種類
0.1
0.3
0.5

補足:カイ二乗分布の自由度

カイ二乗分布の自由度は、以下の式で決まります。

(分割表の行数 - 1) * (分割表の列数 - 1) 

例えば、2x3の分割表であれば、(2-1)*(3-1) = 2となり、自由度は2になります。

この値により、検定で使われるカイ二乗分布の確率分布の形が決まります。各自由度に対応するカイ二乗分布の確率分布をチャートで可視化してみると以下の様になります。