アンケートデータなどを集計・分析する際、回答者ごとに「その人がどれだけ母集団を代表しているか」を示す 確率ウエイト(propensity weight) が付いていることがあります。
このような重み付きのデータでは、単純な平均や割合ではなく、ウエイトを考慮した集計を行うことで、より正確に母集団の傾向を捉えることができます。
今回のノートでは、1行が1人の回答で構成されているアンケートデータを使って、ウエイト付きの平均や割合を求める方法を紹介します。
ここでは「満足度」の列に対して、ウエイトを考慮した平均を求めたいケースを例に操作を紹介します。
まず、満足度にウエイトを掛けた列を作成します。
「満足度」の列ヘッダーをクリックし、「計算を作成」の「標準」を選択します。
計算のダイアログが表示されたら、以下の計算式を入力します。
満足度 * ウエイト
「新しく列を作成」にチェックがついていることを確認し、列名には「満足度_ウエイト」と入力します。
実行ボタンをクリックすると、「満足度_ウエイト」という新しい列が作成されます。
次に、この列とウエイト列それぞれの合計値を集計します。「満足度_ウエイト」の列ヘッダーメニューから「集計」を選択します。
集計のダイアログが表示されたら値に 「満足度_ウエイト」と「ウエイト」の列を選び、それぞれに対して集計関数には「合計値(SUM)」を選択します。
プレビューで確認すると、両方の合計値が正しく表示されていることが分かります。問題がなければ実行ボタンをクリックします。
これでウエイトを考慮した満足度の合計値と、ウエイトの合計値を集計できました。
最後に、集計した合計値を使ってウエイト付きの平均を求めます。
再び「計算を作成」の「標準」を選択します。
計算ダイアログが表示されたら以下のように計算式を入力します:
満足度_ウエイトの合計 / ウエイトの合計
列名を「満足度_ウエイト平均」に設定して実行します。
これで、全体のウエイトを考慮した満足度の平均を求められます。
次に、0/1 の二値で表されるデータ(ここでは「サービス利用」)に対して、ウエイト付きの割合(利用率)を求める方法を紹介します。
まずは「サービス利用」列にウエイトを掛けた列を作成するためにサービス利用の列ヘッダーメニューから「計算を作成」を選択します。
なお手元のデータがTRUE/FALSEの値のみを取るロジカル型であったとしても、計算結果は同じですので、ロジカル型のデータしか手元にない場合も同じように処理を進めてください。
計算を作成のダイアログが表示された計算エディタに以下の内容を入力します
サービス利用 * ウエイト
列名には「サービス利用_ウエイト」と入力し、「サービス利用の後」に新しい列を作成するように指定して、実行します。
これで、行ごとにサービス利用にウエイトを掛けた値を計算できました。
続いて、「サービス利用_ウエイト」と「ウエイト」の合計を求めます。「サービス利用_ウエイト」の列ヘッダーメニューの「集計」を選択します。
集計のダイアログが開いたら、「サービス利用_ウエイト」と「ウエイト」の列を値に選択し、それぞれに対して「合計値(SUM)」を集計関数に指定し、プレビューで合計値を確認したら実行します。
ウエイトを考慮したサービス利用とウエイトの合計値を集計できました。
最後に、それぞれの合計値を使って利用率を計算します。
「サービス利用」の列ヘッダーメニューから「計算を作成」を選択します。
「計算を作成」のダイアログが開いたら、計算エディタに以下の式を入力します。
サービス利用_ウエイト / ウエイト
列名には「サービス利用率_ウエイト」と入力し、最後の列に新しい列を作成するように指定して実行します。
これで、単純な人数の比率ではなく、重みを考慮したサービス利用率を求められます。
最後に、「利用頻度(月に2~3回程度、週1回程度、週2~3回以上 など)」のようなテキスト型のカテゴリデータに対して、各カテゴリのウエイト付き割合(構成比)を求める方法を紹介します。
まず、「利用頻度」列を対象に「集計」を行います。
「利用頻度」の列ヘッダーメニューから「集計」を選択します。
集計のダイアログが開いたら、グループには「利用頻度」の列が選択されていることを確認して、値に「ウエイト」を選択し、集計関数には合計値(SUM)を選択し、プレビューを確認して問題がなければ実行します。
利用頻度の回答ごとにウエイトを集計できました。
次に集計し利用頻度ごとのウエイトを使って、それぞれのカテゴリが全体の中でどれくらいの割合を占めるかを、ウエイトの合計値をもとに計算します。
ウエイトの列ヘッダーメニューから、「表計算」、「…に対する割合」「合計値(SUM)」を選択します。
表計算のダイアログが開いたら、ウエイトを考慮した各回答の比率が計算されていることが確認できます。
値の列名の変更ボタンをクリックし、列名を「利用頻度の割合_ウエイト」などに指定します。
プレビューをクリックして計算結果を確認し実行します。
これで、「週1回程度利用する人が全体の中でどれくらいか」など、各利用頻度カテゴリが母集団においてどれほどの構成比を占めているかを、重みを考慮した比率として把握できます。