Lending Clubは、お金を借りたい人やスモールビジネスと、お金を貸したい人、組織を結びつける、世界最大の市場規模を持つPeer-to-Peerオンライン融資プラットフォームである。お金を借りたい人は、オンラインでシンプルな申し込みをする。Lending Clubは独自のアルゴリズムでリスク評価を行い、その場で利息率などの条件を決定する。 お金を貸したい人(組織)はどの融資の申し込みに対してお金を貸すのか、選ぶことが出来る。ここでは、LendingClubが公開しているデータを使って探索的データ分析を行う。
融資ステータス、融資期間、融資額、金利、そしてDTI(Dept-To-Income Ratio)について見てみる。
LendingClubのローンデータの中には融資のステータスを保持するloan_statusという列がある。まずはこのステータスを見てみよう。
Current(現在融資中)というステータスの融資が一番多いことが読み取れる。件数は約81万件。
Does not meet the credit policy:Status: Charged offや Does not meet the credit policy: Status: Fully Paidは、Charged Off, Fully Paidといったステータス情報に加え、本来は他の列に入るべき追加の情報(Does not meet the credit policy)が入っている。これはクレジット方針が、融資登録してから発行までの間に変更され、当初クレジット方針に不適合だったものが、適合するようになったことを意味する。
2012年あたりからCurrent(融資中)のステータスのものがで始める。これは2012年にあたりに開始した融資が、今まだ継続中であることを表している。そして2017年に近くにつれ、現在継続中のものの割合が多くなってくるのがわかる。
LendingClubのローンデータの中には融資期間を保持するtermという列がある。
融資期間には36ヶ月と、60ヶ月の2種類がある。(欠損値を除く)
融資額をヒストグラムにしてみる。長い期間(60ヶ月)の融資の方が短い期間(30ヶ月)よりも融資あたりの金額が多いことがわかる。融資の件数は逆に期間が短い(30ヶ月)方が多い。
融資額は一番少ないケースで$500、一番多いケースでは$40000 という幅にあることがわかる。
summary(LoanStats_2017Q2$loan_amnt)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 500 8000 12800 14744 20000 40000 21
では融資目的毎の融資額を見てみよう。
複数ある負債を一つにまとめるため(Dept Consolidation)とクレジットカードの支払い(Credit Card)の融資が、非常に多いのが見て取れる。日本より圧倒的にクレジットカードやローンが普及して入る米国らしい傾向がLendingClubの融資にも現れている。
これを箱ひげ図で表すと、教育(Educational)とバケーション(Vacation)のための融資は他のよりも額がかなり少ないのがわかる。
LendingClubでの融資は全米で行われているが、州毎に何か特徴はあるのかを探ってみる。州毎の融資額合計をみると、カリフォルニア州が圧倒的に多い。そして、テキサス州、ニューヨーク州、フロリダ州と続く。
これを米国の地図に表すと以下のようになる。
下の図は州毎、融資目的毎の平均融資金額を示している。国レベルでのトレンドに従っている(つまり複数の負債の連結やクレジットカードの支払いのための融資が多い)州も多いが、州によって平均融資額に違いがあるのが見て取れる。例えば、アイダホ州(ID)では再生エネルギーが、カリフォルニア州(CA)では家の取得が一番高額の融資目的となっている。
もう少し違いをわかりやすくするために、これをヒートマップにしてみると、アイダホ州(ID)の再生エネルギーが際立って高額なのがよくわかる。
またこれを箱ひげ図にしてみると、アイオワ州(IA)の融資額が他の州と比べてかなり少ないのに気づく。
次に融資に適用される金利について見て見る。まずは金利をヒストグラムにしてみる。
金利は一番低いケースで5.32%、一番高いケースでは30.99% という幅にあることがわかる。
summary(LoanStats_2017Q1$int_rate)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 5.32 10.49 12.74 13.37 15.99 30.99 2
では融資目的毎の金利を見てみよう。
これを箱ひげ図で表すと、他の目的では金利の上限が20%以上であるが、教育(Educational)のための融資だけは上限が20%以下であるのがわかる。
ヒーットマップにしてみると、デラウェア州での再生エネルギーの融資と、アイダホ州(ID)で家を買う際に受ける融資が際立って高い金利になっているがわかる。
またこれを箱ひげ図にしてみると、アイオワ州(IA)の上限金利は他の州よりも低いことがわかる。
米国では一般にはクレジットスコアと呼ばれる指標が、各個人の支払い履歴等から計算されて、それが金利を決めるのに使われることが多い。しかし、どうやらLendingClubの場合は、彼らが独自に決めたグレードが金利を決めるのに使われて入るようだ。
下の図を見ると、融資目的や、融資額を横断して、グレード(下の図のAからGまでの丸の色が各グレードを表す)が金利の決定に大きな役割を果たしているのが見て取れる。(下の図の丸の大きさは融資額を表す)
グレードをさらに細かく区分したものに、サブグレードがある。サブグレード毎に金利の分布を見ると、サブグレードで綺麗に金利が区分されているのが見て取れる。
DTIは、この申請しているローンと今払っている住宅ローンや家賃を除いた、既存のローンの返済額を、借り手の月収で割った率である。
教育向けローンの場合、このDTIが低いことが読み取れる。
LendingClubのデータにはbc_open_to_buy
という列があるが、これはクレジットカードの限度額を合計したものである。
グレードが高い方が、クレジットカード限度額合計の上限も高くなっているのが確認できる。
クレジットカード限度額の合計をみると、箱ひげ図の上側のひげが下に比べて大きく伸びていて、偏った分布になっている。また、下側のひげが潰れていてグレード間の比較ができない。 これは、小数の人が非常に高額な限度額を持っているというデータの構造による。クレジットカード限度額をログスケールになおして、再度箱ひげ図を書いてみると、上下に均等な分布となり、下限の比較もしやすくなった。