はじめに

データセット概要

あるWebサービスに付いて、ユーザーが最初の一週間で各機能を使ったかどうかのデー タが入っている。 各行が1ユーザをあらわす。 以下の列がある:

  • timestamp: サービスの利用日時
  • userid: ユーザーID
  • start_time: 利用開始日時
  • end_time: 利用終了日時
  • os: ユーザーの使用しているOS
  • time: サービス利用継続時間
  • canceled: ユーザのが利用停止したかどうかを表すステータス
  • country:ユーザーの居住国
  • 登録後最初の1週間で使った機能
    • AddBirthday
    • StartChat
    • ReceiveFriendRequest
    • TimeLinePostLiked
    • LimitAudience
    • ClearActivityLog

Survival_Users.csv

生存時間分析

生存曲線

  • Kaplan-Meier法

生存曲線によるサンプルデータセットの可視化

データセット全体で生存曲線を算出

Loading...

利用開始から50日程度で半数のユーザが利用停止していることがわかる。

利用しているOSごとに生存曲線を算出

Loading...

利用しているOSごとに生存曲線を算出した。 Linuxに対応する生存曲線は信頼区間が大きくなっていることがわかる。これはLinuxの利用者が少ないことによるものと思われる。 MacとWindowsを比較すると、Windowsのほうがより早くユーザの離脱が発生していることが読み取れる。

国ごとの使用しているOSによるの生存曲線の違い

Loading...

利用しているOSごと、国ごとに生存曲線を算出 Linuxは利用者数が非常に少なくなるので、ここでは除外 日本はすべての国で算出した場合と同様にWindowsのほうがユーザの離脱が早いことがわかる。 一方、イギリスはそれとは逆にMacユーザのほうが離脱がはやいことがわかる。 また、アメリカとインドでは、MacユーザとWindowsユーザの間であまり差はないであろうことがわかる。

使用しているOSごとの、TimeLinePostLikedの利用有無による生存曲線の違い

Loading...

例としてTimeLinePostLikedの有無による生存曲線の違いを利用者のosごとに算出 Macでは150日目頃までTimeLinePostLikedが1であるユーザ群のほうが離脱が早いことがわかるが、それ以降は逆転している状況が可視化できている。ただし、統計的にはそれら2つの間に差があるとは言えない。 Windowsではその様な状況はなく、MacユーザとWindowsユーザでTimeLinePostにLikeすることの意図や考え方が違う可能性が考えられる。

利用開始時期による生存曲線の違い

Loading...

利用開始日を2ヶ月ごとに区切った場合の生存曲線を表示 加入時期が古いユーザ群のほうが生存確率が高いことが伺える

Cox比例ハザードモデルによる要因分析

  • Cox比例ハザードモデルを用いて、複数の要因

説明変数

  • AddBirthday
  • StartChat
  • ReceiveFriendRequest
  • TimeLinePostLiked
  • LimitAudience
  • ClearActivityLog

結果

  • 結果の見方
    • More Likely to Occur: 該当機能を使用したユーザの場合、より離脱が起こりやすい
    • Less Likely to Occur: 該当機能を使用したユーザの場合、より離脱が起こりやすい
    • Neutral: 該当機能の利用の有無により離脱のしやすさに差があるとは言えない
  • わかること
    • ClearActivityLogを利用したユーザはそうでないユーザより離脱しやすい
    • ReceiveFriendRequestもしくはTimeLinePostLikedを利用したユーザはそうでないユーザより離脱しにくい
    • AddBirthday, StartChatおよびLimitAudienceの各機能については、その利用の有無によりユーザの離脱しやすさに差はあるとは言えない(差がないとは言っていない)
Loading...

離脱に影響がありそうな機能に対応する変数を用いて生存曲線を描く

  • ReceiveFriendRequestTimeLinePostLikedの両方の機能を使っているユーザは、片方だけ利用したユーザおよびどちらの機能も利用していないユーザと比べて、離脱しにくいことがわかる
Loading...
Loading...

まとめ

  • Kaplan-Meier法により、各時刻の生存確率を推定し、可視化することが出来る
  • Cox比例ハザードモデルを用いることで、複数の要因が離脱氏やすさにに与える影響を推定することができる
  • サンプルデータによる例では、ReceiveFriendRequestTimeLinePostLikedの両方の機能を使っているユーザの離脱率が小さいことが示された
  • 得られたCox比例ハザードモデルを利用することで、あるユーザの利用開始1週間で利用した機能のログから、任意の時刻の生存確率を予測することが出来る。