表計算(ステップ)の使い方

このノートではデータラングリングのステップとして表計算を使う方法について紹介します。

表計算とは「グループ」を意識した行単位の計算のことで、「累積合計値」や「合計値に対する割合」などが該当します。

Exploratoryでは、「チャート内」または「データラングリングのステップ」として表計算を実行することが可能です。

チャートでの表計算

データラングリングのステップでの表計算

表計算した結果を可視化だけに使いたいときは、チャート内の表計算が活用できます。しかし、表計算した結果をデータとして持ちたい、または表計算後のデータに対して新たな計算をしたい時には、データラングリングのステップとして表計算を行います。

累積合計値を求める

例えば、下記のようにマーケットごとに各月の売上が集計されたデータがあったとします。

マーケットごとに「売上」の「累積合計値」を求めて新しく列を作りたいです。

売上の列ヘッダメニューから「表計算を作成」の「累計」を選び、「合計値(SUM)」を選択します。

表計算のダイアログが表示され、売上の累積合計値を求めて新しく列(売上_cum_sum)が作成されています。

しかし、この状態ではマーケットを跨いで売上の累積合計値が求められてしまっています。

もし、マーケットのようにグループごとに分けて計算したい場合は、「グループ」に列を選択します。

今回はマーケットごとに累積合計値を計算したいため、グループに「マーケット」を選択しています。

これによりマーケットごとに売上の累積合計値が計算され、マーケットを跨いで累積合計値が求められていないことが確認できます。

売上の累積合計値を求めた列の名前が「売上_cum_sum」となっているため、列名を変更するために値の右にある「編集」ボタンをクリックします。

表計算の設定のダイアログが表示されるため、「列名を指定する」にチェックをつけて任意の列名を指定します。

列名が変わっていることが確認できたら、「実行」ボタンをクリックします。

これによってマーケットごとに売上の累積合計値を求めて新しく列として作成することができました。

前の値からの差を求める

例えば、顧客の注文日ごとの売上データがあったとします。

今回はこのデータを使って、「購買間隔」を求めて新しく列を作成したいです。

購買間隔は、注文日 - 前回の注文日で求めることができますが、つまりは「前の行の値」との「差」を求めることになります。

注文日の列ヘッダメニューから「表計算を作成」の「...からの差」を選び、「前の行の値(LAG)」を選択します。

「表計算の設定」のダイアログが表示されました。日付型のデータで「前の値からの差」を求める時は、「期間の単位」を設定することができますが、デフォルトでは「日」が設定されています。

「列名を指定する」にチェックをつけて、任意の列名を指定します。

注文日の前の値からの差を求めた「購買間隔」の列を作成することができました。

しかし、顧客を跨いで購買間隔の計算をしても意味がないため、グループに「顧客ID」の列を選択します。

これにより、顧客ごとに購買間隔を求めることができましたが、ひとつ問題があります。

購買間隔の値がマイナスになってしまっている行がいくつかありますが、本来であればプラスでの値飲みしか存在しないはずです。

原因としては注文日の列が昇順で並んでいないため、「2017-07-04」から「2020-01-08」の値を引くといった計算がされているためです。

この問題を解決するために、「計算前にデータをソートする」にチェックをつけます。次に、ソートする列に「注文日」を選び、「昇順」を選択します。

これによって、注文日の列を昇順でソートすることができています。

さらには、購買間隔の値もマイナスの値がなくなり、正しい購買間隔が求められていることがわかります。

表計算を実行することで、「購買間隔」の列を新たに作成することができました。

購買間隔の列の「i」ボタンを押すことで、チャートから購買間隔の分布や平均値などの統計値を確認することができます。

Export Chart Image
Output Format
PNG SVG
Background
Set background transparent
Size
Width (Pixel)
Height (Pixel)
Pixel Ratio