このトピックは2024/4/30のExploratory Hourで放送されたものです。
アンケートデータで複数回答の値が複数列にまたがっていると、それぞれの回答の件数がどれだけあるのかを比較することが難しくなってしまいます。
そこで、複数回答の値が複数列にまたがっている場合に、それらを1つの列にまとめることができます。
複数回答の値が複数列にまたがっている場合、それらの件数を集計や可視化することが難しいため、複数回答の値の列を1つの列にまとめたい。
今回使用するデータでは、顧客満足度調査のアンケートデータで、1行が1回答者を表します。
このデータには、「サービスの改善点」に関する複数回答の質問が含まれています。
データのロング形式への変換
まず、複数列に分かれている回答データを1つの列にまとめます。
複数回答の列をShiftキーを押しながら選択しすべて選択し、列ヘッダメニューから「ワイド型からロング型へ」の「選択された範囲」を使用します。
「ワイド型からロング型へ」のダイアログが表示されるため、新しい列名には以下を指定します。
実行すると、データが「回答」と「フラグ」の2列にまとまります。
回答テキストの整理
変換後の「回答」列には不要な文字列が含まれているため、これらを除去します。
回答の列で「テキストデータの加工」の「抽出する」から「最後の単語」を選択します。
区切り文字をには「_(アンダースコア)」を設定します。
新しい値には「サービスの改善点」の文字が取り除かれていることがわかります。
実行すると、回答の文字列が綺麗になっていることがわかります。
未選択回答の除外
フラグが0(未選択)の回答を除外します。
「フラグ」列から「フィルタ」の「等しくない」を使用します。
演算子には「等しくない」を選び、値には「0」を入力します。
実行すると、回答されたデータのみが残ります。
サマリビューから「回答」の列を見ると、複数回答の設問で回答が多いものを確認していくことが可能です。