このノートは、アンケートデータを有効活用して、ビジネスやサービスの改善につなげるための使い方を効率よく学ぶために作られた「アンケートデータ分析」のトライアルツアーの第4弾、「集計」です。
アンケートの回答をスピーディーかつ柔軟に集計、あるいは可視化するときに使える便利な機能を体験していただければと思います。
所要時間は10分ほどとなっています。それでは、さっそく始めていきましょう!
多くの場合、アンケートの回答データは、以下のように、1行が1人に回答を表していて、列に各設問に対する回答を値に持っています。
このようなデータの場合、仮に質問が増えると、データ(回答)は横長に広がっていきます。
そのため、このようなデータの持ち方をワイド型と呼びます。
ワイド型のデータは、例えば、以下のような散布図を使って、2つ質問間の相関を調べるときに便利なデータの形式です。
他にもアンケートデータを分析するときに利用することが多い以下のアナリティクスは、ワイド型のデータを利用を前提にしています。
一方で、アンケートの回答結果を集計したり、可視化したりするときには、「ワイド型」のデータよりも、以下のように設問が数が増えるほど行の数が増える「ロング型」のデータの方が、作業効率や柔軟性の観点で便利と言えます。
なぜなら、ロング型のデータの場合、1つの列に質問と回答がまとまっているため、以下のように、行に「質問」の列を選択して、値に「回答」の数値列を選択するだけで簡単に全ての質問の集計することができるわけです。
さらに、列を選択すればクロス集計表を作成することもできます。
あるいは、質問ごとに回答の分布を可視化することも簡単にできます。
ここからはワイド型のデータをロング型のデータに変換して、アンケートの回答を集計、可視化していきます。
今回はサンプルデータとして「従業員アンケート」のデータを使用します。このデータは1行が1従業員の回答になっており、従業員の性別や年代、アンケートの回答に関する情報が列として入っています。
データはこちらのページからダウンロードできます。
従業員アンケートのデータをダウンロードできたら、ダウンロードしたフォルダを開き、「従業員アンケート.csv」をExploratoryの画面にドラッグ&ドロップします。
インポートダイアログが表示されたら、今回は設定は不要なため「インポート」ボタンをクリックします。
任意のデータフレーム名を指定して、「作成」ボタンをクリックします。
従業員アンケートのデータをインポートできました。
テーブル・ビューに移動すると、今回のデータが1行1人の回答者を表すワイド型のデータになっていることが分かります。
今回は、アンケートデータを簡単に集計できるように、ワイド型のデータをロング型に変換します。
数値型のアンケートの回答を1列にまとめるために、Shiftキーを押しながら、数値型の回答列である、「仕事の満足度」から「ビジョンへの共感」を選択します。
続いて任意の列ヘッダーメニューから「ワイド型からロング型へ」、「選択された範囲」を選択します。
すると、データをワイド型からロング型に変換するためのダイアログが表示されます。
今回は、「仕事の満足度」から「ビジョンへの共感」までの列をロング型に変換したいので、開始に「仕事の満足度」、終了に「ビジョンへの共感」が選択されていることを確認します。
続いて、ロング型にまとめる列の総称を「キー列」に設定します。
そのため、キー列には「質問」とタイプします。
値は「回答」に該当するため、「回答」と入力し実行します。
ワイド型のデータをロング型に変換するステップが追加され、データがロング型に変換されました。
データをロング型に変換できたので、ロング型のデータを使って、以下のようなクロス集計表を作成します。
チャート・ビューに移動して、チャートのタイプに「ピボットテーブル」を選択します。
続いて、行に「質問」、値に「回答」を選択します。
値に「回答」を選択したら、値の集計関数を「平均値(Mean)」に変更します。
これで、質問ごとの平均スコアを集計できました。
「列」に列を選択すれば、選択した列に応じて、各質問におけるアンケートの回答平均スコアをグループごとに比べることができるようになるわけです。
さらに、値にメニューから「色の割り当て」を選択することで、視覚的に数値の大小関係を直感的に理解することが可能です。
せっかくですので、以下のような質問ごとの回答の分布のチャートも作成してみます。
チャートタブの+(プラス)ボタンをクリックして、新しいタブを追加します。
新しいチャートタブが追加されたら、チャートのタイプに「バー」を選択し、X軸には回答を選択します。
すると以下のように、各スコアの行数(回答数)が集計されます。
しかし現在のデータはロング型のデータになるため、このチャートは、全ての回答のスコアの行数を集計したものになります。
今回は、質問ごとに回答の分布を可視化したいので、「繰り返し」に「質問」を選択します。
すると、以下のように質問ごとに回答の分布を可視化できるわけです。
今回はワイド型データをロング型に変換する方法を紹介しましたが、ロング型のデータをワイド型に変換したいこともあります。
そちらの詳しいやり方は、以下のノートで紹介していますので、ご参考ください。
アンケートデータでは、複数の回答(MA)の設問を用意して、あてはまるもの全てに回答してもらうことはよく実施されることの一つです。
そこで、複数回答のデータをどのように取り扱っていくべきかを紹介する方法もありますので、よろしければ、ご参考ください。
アンケートデータ分析用のトライアルツアーの他のパートは下記のリンクからご確認いただけます。