Exploratory アワー #752 - 2つのデータフレームを比較したい

年度ごとに分かれたアンケートデータを比較する際、それぞれのデータを個別に分析するのではなく、一つのデータフレームに統合してから比較する方が効率的です。

今回は、2024年度と2025年度のアンケートデータを「マージ(行結合)」によって統合し、さらにデータの持ち方を「ワイド形式」から「ロング形式」へ変換することで、複数の質問項目における年度間の違いを一括で可視化する方法を紹介します。

問題

年度ごとにデータフレームが分かれている場合、各質問項目に対して年度間の比較を行うには、チャートを個別に作成し直す必要があり手間がかかります。

解決方法

データのマージ(行結合)による統合

今回は、2024年度と2025年度の2つのデータフレームを使用します。

2024年度

2025年度

どちらも1行が1回答者のデータとなっており、列には回答者属性や各質問項目が並んでいます。

今回は2024年度のデータを起点とし、右上のステップメニューから「結合」を選択し、「マージ(行を追加)」を選択します。

追加するデータフレームとして2025年度のデータを選択します。

この際、オプションの「データフレーム名を保持する値」にチェックを入れます。これにより、統合後のデータに「ID」という列が作成され、それぞれの行がどちらの年度のデータであるかを識別できるようになります。また、「データタイプを強制的に揃える」にもチェックを入れておくことで、年度間で列の型が異なる場合のエラーを防ぐことができます。

実行すると、2つの年度のデータが縦に結合され、ID列によって年度の比較が可能な状態になります。

ワイド形式からロング形式への変換

次に、複数の質問項目を一括で比較するために、データの構造を変換します。現在は質問ごとに列が分かれている「ワイド形式」ですが、これを「ロング形式」に変換します。

比較したい質問項目の列(例:「サービスの使いやすさ」から「サービスの推奨度」まで)を、シフトキーを押しながら範囲選択し、列ヘッダメニューから「ワイド型からロング型へ」を選択し、「選択された範囲」を指定します。

ダイアログでは、キー列に「質問」、値の列に「回答」という名前を指定します。これにより、各質問項目が「質問」列に、そのスコアが「回答」列にまとまった構造になります。

この変換を行うことで、チャートの「繰り返し」機能を利用して、すべての質問項目の年度比較を一つの画面で実行できるようになります。

エラーバーを用いた統計的有意性の判断

年度間の平均値の差を可視化し、統計的な有意性を確認します。

チャートのタイプに「エラーバー」を選択し、X軸に年度を識別する「ID」列を、Y軸に「回答」列を割り当てます。

次に、「繰り返し」に「質問」列を選択します。

最後に、マーカーに「サークル」を指定することで、95%信頼区間の重なりを確認しやすくなります。

統計的な判断として、95%信頼区間の線が年度間で重なっていない場合、その質問項目については2つの年度間で平均値に「統計的に有意な差がある」と解釈できます。

逆に、線が重なっている場合は、現時点では明確な差があるとは言えない(通常のばらつきの範囲内である)と判断します。

この手順を踏むことで、複数のアンケート項目における年度ごとの改善や変化を、客観的な指標に基づいて効率的に分析することが可能になります。

ビデオ

Export Chart Image
Output Format
PNG SVG
Background
Set background transparent
Size
Width (Pixel)
Height (Pixel)
Pixel Ratio