Exploratory アワー #783 - AI プロンプト: 割合の信頼区間を計算する方法

顧客満足度調査などのアンケートデータにおいて、特定の回答（例：推奨するかどうか）の割合を比較する際、単なる数値の比較だけではその差が統計的に意味のあるもの（有意な差）かどうかを判断することは困難です。

そこで今回は、ExploratoryのAI プロンプト機能を活用して、職種ごとの「推奨する」回答の割合と、その信頼区間（統計的な誤差を考慮した範囲）を計算する方法を紹介します。これにより、チャート上での視覚的な確認だけでなく、データとして有意差の判定を行うことが可能になります。

問題

職種などのカテゴリ間で割合を比較する際、サンプルサイズ（回答者数）が異なると、見かけ上の数値に差があっても、それが偶然によるものか、統計的に意味のある差なのかを判断できません。

また、比較対象の組み合わせが膨大にある場合、一つひとつチャートで確認して有意差の有無を判定するのは非常に時間がかかり、効率的ではありません。

今回使用するデータは、1行が1回答者の顧客満足度調査データです。「推奨するかどうか」という列は、推奨する場合はTRUE、そうでない場合はFALSEが入っているロジカル型のデータとなっています。

まず、職種ごとの推奨割合を視覚的に確認するために、チャートビューで「エラーバー」を使用します。X軸に「職種」、Y軸に「推奨するかどうか」のTRUEの割合を割り当てます。

エラーバーを表示すると、各割合の上下に信頼区間（誤差の範囲）が表示されます。この信頼区間が重なっていない場合、その2つの職種間には統計的に有意な差があると言えます。逆に、重なっている場合は、その差が偶然である可能性を否定できず、統計的に有意な差があるとは言えません。

チャートでの確認だけでなく、大量のカテゴリを自動的に判定したい場合に、AIプロンプトを使って信頼区間の上限と下限をデータとして計算します。

テーブルビューから「AI データ加工」を選択します。

計算エディタには、以下のような指示を入力します。

職種ごとに推奨するかどうかのTRUEの割合とその信頼区間、そして信頼区間の上限と下限を計算して

このプロンプトを実行することで、信頼区間とその上限、下限を計算するためのRのスクリプトが生成されます。

実行結果として、各職種ごとの推奨割合に加えて、その信頼区間の下限値（lower）と上限値（upper）が新しい列として作成されていることが確認できます。

データとして信頼区間の上限と下限を算出することで、その後の分析ステップで自動的なフラグ付けが可能になります。例えば、特定の基準値や他のグループの信頼区間と比較し、範囲が重なっているかどうかを条件式で判定することで、一気に有意なグループに対してのフラグ付が可能です。