Kickstarterのプロジェクトデータからデータをインポートします。すると、サマリビューでstatusという列があります。ここにそのプロジェクトが成功したかどうかを識別できる情報があります。
ハイライトの機能を使って、成功したプロジェクト(statusがsuccessful)がどういう傾向があるのか見ていきます。
するとメインカテゴリでは、件数ベースで見ると、Film & Video、Musicの成功例が多いことがわかります。成功率ではMusicやDesgin、Gamesといったカテゴリが高いようです。サブカテゴリを見ると、Tabletop Gamesの成功率が高いようです。
成功したプロジェクトの国を見ると件数ベースではアメリカが圧倒的に多いです、成功率で見ると、イギリスや他の国のほうがアメリカより高い事がわかります。
次にラングリングで、成功しているプロジェクトにTRUE、それ以外にFALSEという区分をつけて、どの特徴が成功に相関しているのかを調べます。
まず、成功したかどうかを識別する列status_logicalを以下のように作成します。
この作成したstatus_logical列との相関をサマリビューで調べてみると、main_categoryがTheaterだと60%近い成功率(信頼区間95%では、成功率は58.96%から60.8%の範囲)であることがわかります。
では、このメインカテゴリを深堀りするために、AUC(ロジスティック)のリンクをクリックします。すると、ロジスティック回帰が以下のように作成されます。
TheaterやComic、Musicというのが成功率が高く、TechnologyやFoodといったカテゴリは苦戦していることがわかります。
さて、ここまではカテゴリに注目してきましたが、目標額によっても成功率は変わるんではないでしょうか?目標額が少なければそれだけ成功確率は上がりそうです。ではロジスティックのアナリティクスの予測変数に目標額も入れてみましょう。
ところで、目標額はかなり分布が左に偏っており、右側のある金額のときの違いがよくわかりません。
そこで一旦対数を取ってみて、もう一度サマリビューの相関を確認します。
すると、(対数を取った後の)目標額による差が分かるようになりました。では作成したロジスティクス回帰のアナリティクスにこの対数をとった目標額を足して再度結果を見てみましょう。
予測に関しては、カテゴリが一定なら、やはり目標額が低い方が成功率が高く、逆に金額が一定ならカテゴリがTheaterやComicsの成功率が高いことが見て取れます。
変数重要度を見ると目標額(の対数を取ったもの)のほうがカテゴリよりも重要度が上に来ることがわかります。
また、変数重要度を見ると目標額(の対数を取ったもの)のほうがカテゴリよりも重要度が上に来ることがわかります。
Kickstartarというと、Tech系のガジェットいうイメージがあったが、実はTheater、Commic, Musicといったものが意外に目標額を集めているのがEDAをしてみると分かった。言われてみれば当然だが、目標額の設定額も成約率を高めるキーであることも見て取れる。