このノートでは、「時系列クラスタリング」について紹介します。
下記のように、時系列のトレンドをグループ別(例:都道府県、国、など)に可視化をしたチャートがあったとします。
このようなチャートがあったとしても、線の数(グループの数)が多すぎてどういった特徴があるのかをすぐに判断することは困難です。
そこで、時系列のトレンドが似たようなグループを分類することができるのが「時系列クラスタリング」というアナリティクスです。
時系列クラスタリングを使うことで下記の質問に答えていくことができます。
今回はサンプルデータとして、都道府県別の人口データを使用していきます。
このデータは1行が都道府県別の1年単位のデータで、列には調査年、都道府県、人口などの列があります。
アナリティクスビューを選び、タイプに「時系列クラスタリング」を選択します。
グループに「都道府県」、日付 / 時間には「調査年」を選び、集計関数には「丸め処理の年」を選択します。最後に、値に「人口」を選択して、実行ボタンをクリックします。
都道府県別の人口のデータを使って、時系列クラスタリングを実行することができました。
デフォルトのクラスターの数は3ですが、プロパティからクラスターの数を変更することができます。
時系列タブでは、ラインチャートで値の時系列のトレンドをクラスターごとに確認することができます。
時系列(標準化)タブでは、先ほどの時系列タブと似ていますが、値はそれぞれのグループで標準化した値を可視化しています。
今回の都道府県ごとの人口のように、東京都と沖縄県では人口に大きな違いがあります。しかし、人口の大きさに違いがあるグループがあったとしても、その都道府県の時系列のトレンドが上がっているのか、下がっているのかを同じ基準で確認しやすくしたのが時系列(標準化)タブです。
クラスター中心タブでは、グループごとに描かれた線の中心となる線をクラスターごとに引いたものが「赤色」の線として確認できます。クラスター中心タブをみることで、そのクラスターでは時系列のトレンドが上がっているのか、下がっているのかを視認しやすくなります。
クラスター・メンバーのタブでは、グループに設定したカテゴリが、どのクラスタに属しているかを表形式で確認できます。