Exploratoryでは、データをグループごとにまとめるグループ化という機能があります。この機能を使うことで、グループごとに計算処理やフィルタをすることができます。例えば、国ごとに表計算をしたり、マーケットごとに売上TOP5の国のみを残すといったことができます。
非常に強力な機能のグループ化ですが、今回はその中でもよく使われる3つの使い方を紹介します。
例えば、下記のように1行が1ヶ月ごとの売上データがあったとします。そしてデータはマーケットごとにあります。
このデータを元にラインチャートを使って月ごとの売上を可視化します。
しかし、このチャートでは、その時点までの売上高がどれくらいなのかがわかりません。例えば、2018年の3月時点で、1月と2月と3月の合計した売上高がいくらあるのかを知りたい時があります。
そういった時に使えるのが表計算の累積合計という機能です。
この例で言うと、2月には1月の売上と2月の売上を足し合わせ、3月には1月と2月の売上に3月の売上を足しています。
つまり、表計算の累積合計とは、前の値までの合計値に今の値を足しあげていく計算方法と言えます。
ラインチャートでは、表計算の累積合計を使うと一つの線で表すことができます。
そして今回は、この累積合計をチャートではなく、データラングリングとして行いたいです。
売上の列ヘッダメニューから表計算の累積合計を選択します。
計算を作成のダイアログが表示され、計算エディタにはすでに累積合計の関数であるcumsum
と引数である列名が入力されているのでそのまま実行します。
売上の累積合計を求めることができました。
しかし、下記の枠線に注目してください。
このままでは、マーケットが異なる行でも累積合計されていて、意味のない値になっています。
本来やりたいことは、下記のチャートのようにマーケットごとに売上(1年間)を累積した合計値として求めることです。
では、どうやってマーケットごとに分けるのでしょうか?
ここで必要になってくるのがグループ化です。
例えば下記のようなデータがあったとします。
このデータをマーケットごとにグループ化するとAsiaとEuropaの2つのグループができます。
そして、このグループ化をしたまま表計算の累積合計を使うとします。
すると、マーケットごとに累積合計した値を求めることができます。
では、グループ化を試してみましょう!
売上の累積合計を求める前のステップを選択します。
マーケットの列ヘッダメニューからグループ化を選択します。
これでマーケットごとにグループ化することができました。
最後に先ほど作成した累積合計のステップに戻ります。
すると、マーケットごとに累積合計することができました。
AfricaとAsia Pacificの境に注目してみると、マーケットごとに売上の累積合計がsていることがわかります。
今回は、1行が1顧客の売上高のデータを使用します。
こちらも先ほどと同様にグループ化を使いますが、解釈しやすくするために質問を簡単にします。
売上の平均額よりも売上高が大きい顧客のみを残したい。という質問にまず答えていきます。
例えば、下記の散布図を見て下さい。
今回のデータは1行1顧客なので、散布図の一つの点は一顧客です。
そして散布図上に引かれている赤い線は売上平均の線です。
つまり、このピンクのボックスの中に位置している顧客のみをフィルタで残したいということです。
サマリ・ビューから売上の平均値を確認すると、平均値は714ドルだとわかりました。
サマリ・ビューまたはテーブル・ビューで売上の列ヘッダメニューからフィルタの以上を選択します。
集計関数のチェックボックにチェックし、集計関数には平均値(mean)を選択します。
売上の平均値以上のデータのみにフィルタすることができました。
サマリ・ビューで確認すると売上の最小値が全体での平均値の714以上であることがわかります。
今行ったフィルタは全体の売上平均よりも高い顧客のみを残しました。
しかし、マーケットによって売上が高い顧客が多かったり、逆に売上が低い顧客が多いといったことがあります。
そのため、全体ではなくマーケット毎に売上平均よりも高い顧客のみを残したいので、マーケット毎に売上平均を求めます。
マーケット毎に売上平均よりも高い顧客を残すとなると、下記のようにピンクのボックスを求めることになります。
先ほど作成した、フィルタの前のステップを選択します。
マーケットの列からグループ化を選択します。
マーケット毎にグループ化することができました。
フィルタのステップを選択します。
これでマーケット毎に売上の平均額よりも売上高が大きい顧客のみを残すことができました。
チャートで確認してみると、マーケット毎に顧客の売上高の最小値が異なることがわかります。
今回は、1行が一つの国の売上データがあったとします。
この中から売上が高い上位5ヵ国のみを残したいとします。
売上の列ヘッダメニューからこれだけを残すを選び、上位Nを選択します。
値に5と入力して実行します。
これにより、売上の上位5カ国のみを残すことができました。
しかし、今回もマーケットごとに売上が高い上位5ヵ国のみを残したいとします。
フィルタの前のステップを選択します。
マーケットの列ヘッダメニューからグループ化を選択します。
マーケットでグループ化することができました。
上位Nのステップを選択します。
マーケット毎に売上の上位5カ国のみを残すことができました。
バーチャートで可視化してみると、これらの国がマーケット毎の売上高上位5ヵ国と言うことが簡単にわかります。