アンケートデータでは、複数の回答(MA)の設問を用意して、あてはまるもの全てに回答してもらうことはよく実施されることの一つです。
一方で、複数回答のデータはあるもののどのようにデータを加工して扱っていけばいいかわからないという声もよく耳にします。
そこで、複数回答のデータをどのように取り扱っていくべきかについて、このノートでは紹介していきます。
今回使用していくのは1行1回答者のアンケートデータです。
列には複数回答の設問が2つあります。複数の回答があった時には1つのセルにカンマ区切りでまとめられているデータとなります。
例えば、複数回答の値ごとに、回答件数を可視化してみたいとします。
しかし、そのままのデータを扱ってしまうと、複数回答の値ごとに分けられてしまうため、それぞれの値(例: サポート対応、価格帯系)での件数を確認することはできません。
そこで、1つのセルに複数の回答が入っているものを、回答ごとに行に分割します。
Exploratoryでは、「分割」の「...で行に分割」を選び、区切り文字には「コンマ(,)」を選択します。
行に分割のダイアログが表示されるため、そのまま実行します。
これによって、複数回答の1つのセルにまとまった回答を行に分割することができました。
行に分割をしておくことで、それぞれの回答件数を正しく可視化をして比べることができます。
複数回答の列が複数あったとします。
複数回答の列に対する行に分割をすでに実行したデータフレームで、別の複数回答の列に対して行に分割を実行をしてしまうと問題が起きてしまいます。
例えば、ID-0001の人はQ13: 利用している機能は「画面共有」、「録画」、「ホワイトボード」と3つの値がありますが、Q12: サービスの改善点は「特になし」の一つしかありません。
もしくは、ID-0005の人はQ12: サービスの改善点は「通話品質」、「価格帯系」の2つの値がありますが、Q13: 利用している機能は「ウェビナー」の一つしかありません。
このようにして、複数回答の列が2つ以上あり、それぞれに対して行に分割を実行してしまうと、本来1つの回答しかしていないとしても別の列で複数の回答をしていると余計に行が増えてしまい、集計や可視化をする時に誤った結果につながってしまいます。
そこで、Exploratoryではブランチの機能を使うことで解決できます。
複数回答の列が複数あった場合は、それぞれの列ごとにブランチ・データフレームを用意して行に分割を実行していきます。
特定の地点のステップから「ブランチを作る」をクリックします。
メインのデータフレームから派生してブランチデータフレームが作られます。
片方のデータフレームでは複数回答の列である「Q12: サービスの改善点」のみで行に分割を実行します。
もう片方のデータフレームでは、複数回答の列の「Q13: 利用している機能」のみで行に分割を実行します。
上記のように、複数回答の列ごとにブランチ・データフレームを作って行に分割を行うことで、ダブルカウントを防ぐことができるようになっています。