アナリティクスビューで作成した生存分析モデル(コックス回帰やサバイバル・フォレスト)を利用すると、将来のイベント(故障・離職・キャンセルなど)の発生リスクを予測できます。
そこでこのノートでは、あらかじめコックス回帰や、サバイバルフォレストのモデルを作成している前提で、将来的なキャンセルの発生リスクを予測する方法を紹介します。
イベントがまだ発生していない顧客の将来のイベント予測を行うためには、予測対象となるデータを別途用意し、「モデルで予測(アナリティクス・ビュー)」を使用して予測を実行します。
なお、生存分析モデルの場合、以下の2つのパターンの予測が可能なため、このノートではそれぞれの予測について初回します。
今回は、Netflixの動画配信サービスにおける、まだキャンセルしていない継続顧客のサービスの利用状況データを使用します。
このデータには顧客ID、利用開始日、最後の利用確認日、コンテンツ視聴状況、顧客属性などの情報が含まれており、データの取得対象がサービスを継続利用中の顧客のため全ての顧客のキャンセルフラグがFALSEになっています。
継続顧客の将来的なキャンセルリスクを予測するために、事前に、別のデータフレームで作成した生存分析モデルを使用してを予測を実行します。
予測対象のデータフレームのステップメニューをクリックし、「モデルで予測(アナリティクス・ビュー)」を選択します。
モデル選択ダイアログが表示されたら、モデルを作成したデータフレームを指定します。今回は「顧客の利用状況」データフレームを選択し、アナリティクスモデルから作成済みの生存分析モデルを選択します。
「アナリティクス(モデル)」に生存分析モデルを選択すると、2つの予測のタイプのメニューが表示されます。
まず、指定した期間後の生存率を予測する、「Nヶ月後の生存率」について紹介します。
予測タイプで「Nヶ月後の生存率」にチェックをつけます。
続いて、基準となる日付を設定するため、「特定の日付」を選択し、カレンダーピッカーから基準日(今回はデータを取得した日、言い換えれば、データ上の最後の日である2023年1月31日)を指定します。
なお、基準日の設定では、「今日」を選択することで常に最新データを基準とした予測も可能です。
今回は、基準日から1ヶ月後の生存確率を計算したいので、予測期間に「1」を入力して実行ボタンをクリックします。
予測が完了すると、新しい予測ステップと、オレンジ色でハイライトされた複数の列が追加されます。
追加された列には以下の情報が含まれます:
重要な点として、Predicted Survival Rateは基準日からの条件付き生存率を表しており、絶対的な生存率ではありません。
ここで予測されているのは、「指定した日まで」の生存率ではなく、「基準日から」の生存率です。
具体例で説明すると、田中さんが2023年1月から利用開始し、基準日(2023年1月31日)から1ヶ月後の生存率が60%と予測された場合、これは利用開始から1ヶ月後の絶対的な生存率60%を意味します(100%から60%への変化)。
一方、鈴木さんが2022年9月から利用開始し、基準日時点で既に4ヶ月経過している場合、基準日時点では100%生存している前提で、そこから1ヶ月後の生存率が91%と予測されます。これは生存曲線上で35%から32%への変化(32%÷35%=91%)を表しています。
この解釈により、田中さんの1ヶ月後生存率は40%、鈴木さんの1ヶ月後の生存率は91%となり、田中さんの方がリスクが高い状況と判断できます。
このように「Predicted Survival Rate」は「基準日からの生存率」を表す点において注意が必要です。
次に、顧客が特定の生存率に達する日付を予測する方法を設定します。
これは、例えば「生存率が60%を下回ったらフォローアップを開始する」といったアクションルールを設定する際に有効です。
予測ステップを再度開き、予測タイプで「特定の生存率になる日付」にチェックを入れ、生存率の閾値として「0.6」(60%)を入力します。
実行ボタンをクリックすると、新しい列が追加されます。
追加される列には以下が含まれます:
この予測により、顧客ごとに異なる生存曲線の形状と利用開始タイミングを考慮した上で、個別のフォローアップタイミングを特定できます。
予測結果を確認する際、ノート列に特定のメッセージが表示される場合があります。
「Out of range…」は、Nヶ月後の生存率を予測したときに表示される可能性があるメッセージです。
これは予測対象顧客の利用期間がモデルの学習データの最大期間(今回は35ヶ月)を超えている場合に表示されます。
例えば、36ヶ月以上利用している顧客の場合、予測可能な期間を超えているため生存率を予測できず、該当するPredicted
Survival Rateの値がNAになります。
「Don’t meet the threshold」は、Nヶ月後の生存率を予測したときに表示される可能性があるメッセージです。
具体的には、予測可能な期間内で指定した生存率のしきい値に達しない場合に表示されます。
これらの制限事項を理解した上で、適切な予測期間や閾値を設定することで、継続顧客の将来的なキャンセルリスクを効果的に予測し、タイミングを逃さないフォローアップアクションを計画できます。