テキスト分析 - 単語のカウントの使い方や結果の解釈の仕方、よくある質問をご紹介します。
アンケートでは、5段階評価などではわからない回答者が持っている具体的な考えを引き出すために、自由記述の質問を設定することはよくやることの一つです。
しかし、自由記述のテキストのように定性データの解釈は人によって異なるため、全体的な特徴や傾向を客観的に捉えにくいために、うまく活用しきれないという声をよく耳にします。
そこで、文章を「単語」に分け、それぞれの単語の頻出回数を集計(定量化)することで、データの中にあるパターンや特徴を掴むことができるようになります。
例えば、下記のように「時間」といった単語がどれだけ使われているのかを知ることで、アンケートの回答者が「時間」を気にしている人が多いのか少ないのかを比べていくことができます。
文章を単語化のイメージは下記のようなもので、それぞれの単語に分けていくことでその単語の頻出回数を集計していくことができ、このノートで紹介する「テキスト分析 -単語のカウント」にて簡単に実行できます。
さらには、「テキスト分析 - 単語のカウント」を使うことで下記の質問に答えていくことができます。
テキスト分析 - 単語のカウントを実行するためには、自由記述のテキストの列が必要です。さらに、一緒に使われる単語の組み合わせを知りたい場合は、1行が1観察対象(例:1行が回答者)となっている必要があります。
今回は「よりよくするための提案」といった自由記述の回答で、どういった単語がよく使われているのかを調べていきます。
アナリティクスビューを選び、タイプに「テキスト分析」の「単語のカウント」を選択します。
テキストの列に「よりよくするための提案」を選択します。
もしデータが「5000行」以上の場合、全てのデータを使いたい場合は「データをサンプルする」のチェックを外してください。しかし、データの行数によっては実行までに時間がかかってしまうために、デフォルトでは「5000行」でサンプルされていることになります。
設定ができたら、「実行」ボタンをクリックします。
テキスト分析の「単語のカウント」が実行されました。
テキスト分析の「単語のカウント」では、大きく分けて「単語の出現頻度」と「一緒に使われる単語の関係性」の2つに関するタブがあります。
「ワードクラウド」のタブでは、それぞれの単語の出現頻度に応じて単語の「サイズ」や「色」が決まります。
今回の場合は「時間」や「事例」などの単語が多く使われていることが確認できます。
ワードクラウドはビジュアル的には面白いチャートですが、それぞれの単語が何回出現したのか、どの順番で多いのかは知ることができません。
「単語 - バー」のタブでは、それぞれの単語の出現回数がバーチャートとして可視化されるため、単語の出現回数が多いのか、少ないのかが比べやすいです。
今回の場合は、「時間」や「事例」、「発表」などの単語がよく使われていることが確認でき、さらには「時間」は「事例」に比べて15件ほど多く出現していることもわかります。
「単語 - カウント」のタブでは、それぞれの単語の出現回数をビジュアル付きのテーブルで確認できます。
「単語データタブ」ではdocument(文書番号 = 元のデータの行番号)と、それぞれのdocumentに含まれる、ストップワードを除いた単語の情報が表示されています。
「単語ペア - バー」のタブでは、一緒に使われている単語の組み合わせの出現回数をバーチャートとして可視化しています。
今回の場合は、「配分/時間」や「時間/発表」といった単語がよく一緒に使われていることがわかります。
「単語ペア - カウント」のタブでは、それぞれの単語のペアの出現回数をビジュアル付きのテーブルで確認できます。
「単語ペア - バー」や「単語ペア - カウント」ではどの単語が最もよく一緒に使われているかがわかりますが、2つの単語の組み合わせ以上の関係性はわかりません。
そこで、「単語ペア - ネットワーク」では、一緒に使われる単語を「単語間の関係」として 見ていくことができます。
それぞれの単語を一緒に使われる頻度を元にグループ分けし、グループ毎に「色」が割り当てられています。
円の大きさは「出現頻度」によって決まり、出現頻度が多いと円は大きくなり、出現頻度が少ないと円は小さくなります。
さらに、よく一緒に使われる単語の組み合わせは、より太い線で表わされます。
データの中に性別や年代などのカテゴリーの列がある場合、それぞれの単語でカテゴリーの比率を見ていくことができます。
例えば、今回のデータにはNPSといったカテゴリー列があります。
そこで、単語ごとにNPSグループ(カテゴリー)の比率を調べていきたいです。
「カテゴリー」に「NPS」の列を選択して実行します。
「単語 - カテゴリー比」タブより、それぞれの単語ごとにNPSグループの比率を 見ることができます。
「時間」や「配分」といった単語はデトラクター(非推奨者)の人たちの回答によく出てくることがわかります。
Exploratoryでは、あまりにも一般的な単語でそれぞれの文章を特徴づけることがない「ストップワード」や、分かれてしまう単語を一つの単語として扱える「つなぐ単語」を辞書として登録して使うことができます。
辞書では下記のように、1行ごとに単語を入力して登録することができます。
さらに、辞書はExploratoryサーバーにパブリッシュして、チームメンバーや他の人たちにも共有することができます。
辞書の詳しい使い方については、こちらの資料をご参照ください。
ワードクラウドでは表示される単語の数はデフォルトでは「300単語」となっています。
表示される単語数を増やしたい場合は、プロパティから「ワードクラウド」のセクションにある「単語の数」を変更することで可能です。
プロパティのワードクラウドにある「表示のための最小カウント」は、ワードクラウドで表示する単語の出現回数が指定した回数以上のものを表示するための機能です。
デフォルトでは「1」になっているため、1回以上出現している単語が表示されるようになっています。
もし、2回以上出現している単語のみを表示させたい場合には、「表示のための最小カウント」を「2」にして実行することで可能です。
可能です。「単語ペア-ネットワーク」のタブ上のチャートの設定メニューから、「テキスト」「線」「円」に関する各種設定を調整いただけますので、そちらから表示される単語のテキストやサークルのサイズ、線の太さを変更することが可能です。
ワードクラウドで下記のように四隅が四角く表示されてしまうことがあります。
これは、画面の解像度低い時や表示される単語の数が多いときに四角くなってしまいます。
ワードクラウドの表示を丸くしたい場合は、以下の方法をお試しください。
単語数を減らしたくない場合は、画面の解像度を上げていただくことで丸く表示することが可能です。
または、画面の解像度はそのままにしたい場合は、ワードクラウドで表示する単語の数の調整する必要があります。
単語の数はデフォルトでは300になっていますが、こちらを減らしていただくことで丸く表示することが可能です。
もしくは、表示のための最小カウントの値を増やすことでも、表示する単語を絞り込むことができ、さらには丸く表示させることが可能です。
テキスト分析に関する参考資料は下記をご覧ください。
様々な形のアンケートデータからビジネスや顧客サービスの改善につながるインサイトを掘り出すための分析手法を効率的に身に着けていただくためのトレーニングを開催しています!
アンケートデータは持っているが活用しきれていない、分析または可視化の手法を効果的に学びたいと行った方は、ぜひご参加を検討下さい!
<a href="<https://exploratory.io/survey-data-training-jp>" class="btn btn-primary" target="_blank"> 詳細はこちら</a>