Webコンテンツやeコマースのサイトを運営するなかで、サイト訪問者が興味のあるコンテンツや商品を探せるように、サイト内に検索ウィンドウを設置して、顧客体験を良くしようとすることはよくあります。
Exploratoryもインサイト・ページにて、分析に関するhow-toノートなどが検索できるようにしています。
そして我々Exploratoryもそうですが、多くの検索ページはURLに検索クエリのパラメーターをつけることで、検索結果のページを動的に生成しています。
またWebサイトの運営にあたっては、訪問者がどのようなキーワードをどのくらいのボリュームで検索しているかを理解できれば、サイトのデザインや今後提供していくコンテンツを検討するうえで有益な情報となります。
一方でGoogleアナリティクスから、そういったデータを取得しようとすると、該当する検索クエリの抽出に手間取ったり、抽出した後にその結果を可視化したものが直感的に理解しにくいといったことがあります。
そこで、今日はサイト内の検索クエリの情報を簡単に取得して、ワードクラウドというチャートで可視化する方法を紹介します。
今回は以下のステップで検索クエリの情報を取得した後、可視化していきます。
それでは早速、Google アナリティクスからデータを取得していきます。Exploratoryで新規プロジェクトを作成したら、データフレームの横にある+(プラス)ボタンをクリックして「クラウドアプリケーションデータ」を選択します。
続いてクラウドアプリケーション・データソースからGoogle Analyticsを選択します。
するとGoogle アナリティクスのデータ・インポート・ダイアログが表示されるので、データを取得するアカウント、プロパティ、ビュー、セグメントを選択します。
続いてデータを取得する期間を設定します。今回は直近1ヶ月の検索クエリを取得したいので、期間で「直近Nヶ月」を選択し、数値を「1」に設定します。
続いてクエリ数の取得です。冒頭でも紹介しましたが、今回は、検索クエリがURLのパラメーターに含まれるようなケースになるので、特定の検索クエリのパラメーターを含むページビュー数が検索クエリ数となるわけです。
従って、ディメンションに「 ページ(Page)」を選択し、指標から「ページビュー数(Pageviews)」を選択、実行ボタンをクリックして、データを取得します。
すると直近1ヶ月のページビュー数がプレビュー画面に表示されるので、保存ボタンをクリックします。
データフレームの名称設定ダイアログが表示されるので、今回は「query」という名前にして、作成ボタンをクリックします。
これでデータの取得は完了です。
続いて、検索クエリが含まれるURLをフィルタしていきます。Exploratoryのインサイトページの場合、検索クエリのパラメーターが含まれるページのURLは、https://exploratory.io/insight?q=検索語
といった形になるので、https://exploratory.io/insight?q=
が含まれるページにだけにフィルタします。
このときURLに関係なく、全ての検索クエリを抽出したければこのステップは飛ばして次のステップに進んでください。
pagePathの列ヘッダーメニューからフィルタを選択し、「この文字列を含む」を選択します。
Google アナリティクスではトップページのURLは「/」(スラッシュ)となるため、スラッシュより後の「insight?q=」を入力し実行ボタンをクリックします。
すると、以下のように「表示するデータがありません」といったエラーが表示されます。
これはR言語とそのUIであるExploratoryが先程のフィルタの中で正規表現と呼ばれる、「文字列の集合を記号や文字と組み合わせて表現する」方法をサポートしているためです。
正規表現の世界で「?」は「直前のパターンを0回以上繰り返す」という特殊な意味を持っており、そのため今回「?」が文字列として認識されず、該当するデータがなくなってしまったわけです。
今回のようなケースでは「?」を特殊な意味を持つ記号ではなく、ただの文字列として捉えたいので、そういったときは「\」(バックスラッシュ)という記号を「?」の前に入れて、正規表現として解釈させないようにすることができます。
それでは画面右のフィルタのステップをクリックして、「?」の前にバックスラッシュをつけて「insight\?q=」とタイプして、再度実行します。
これで検索クエリ用のパラメーターが含まれるページだけにフィルタすることができました。
続いて検索クエリのパラメーターを取得していきます。ここでやりたいことはhttps://exploratory.io/insight?q=検索語
というURLからの検索語のみを抜き出すことです。
では「/insight?q=」という文字列を取り除けばいいのかというと、そこまで単純な話ではありません。例えば、下記のようにURLが持てるパラメーターは一つではなく、「&」で繋げることが可能です。つまり検索クエリとは関係ないパラメーターも混じっているわけです。
そういったときには「パラメーターの取得」機能を利用することで目的のパラメーターの情報のみを簡単に抽出することが可能です。実際にやっていきましょう。
「pagePath」の列ヘッダーメニューから、「URLの操作」、「パラメータ」の取得を選択します。
すると「計算を作成」ダイアログが表示されます。ここでは「?」と「=」の間の文字列で定義されたパラメータ名を指定します。今回は取得したいパラメータ名は「q」となるので、「url_param(pagePath, “q”)」と入力します。
そして検索クエリのみを抽出した列を作成したいので、「新しく列を作成」を選択して、列名を「query」として、実行します。
これで複数のパラメーターから、検索クエリ用のパラメーターのみが取得ができました。
ここまで来たらあと一息です!取得したデータを見ていると大文字、小文字が混在していることが分かります。
2020/02/24時点でワードクラウドでは大文字、小文字を尊重した形で文字列を集計するので、大文字、小文字の表記を統一していきます。
queryの列ヘッダーメニューから、「テキストデータの加工(UI)」、「変換する」を選択します。
すると「テキストを変換」ダイアログが表示されるので、変換タイプに頭文字が大文字になる「TitleCase(タイトルケース)」を選択し、プレビューをクリックします。
すると全てのクエリがタイトルケースに変換されていることが確認できるので、実行ボタンをクリックします。
これで全てのクエリが、タイトルケースに変換できました。
さあ仕上げの時間です!チャートタブに移動して、タイプに「ワードクラウド」、単語に「query」、色で分割に「pageviews」を選択します。
このとき「pageviews」の数値を足しあげたいので、集計関数に「SUM」を選択してください。
ワードクラウドの完成です!
探索的データ分析をみんなでやりながら学ぶEDA Salonや、SaaS向けのコンテンツ、Prophetやパラメーターなどの機能に関する内容が多いことが直感的に理解できました!
こういったチャートから、今後どのようなコンテンツを増やしていくのかといった議論を進めていくことも有用です。
データサイエンスの分析手法を一から体系的に学び、現場で使える知識とスキルを身につけていただくためのトレーニング、データサイエンス・ブートキャンプを5月に開催します。
データを使ってビジネスを成長させたい、または問題を解決したいという方は、ぜひこの機会に参加をご検討ください! 詳細はこちらになります。