このノートは、Exploratoryを効率的に使い始めることができるように作られた「Exploratoryの使い方」の第4弾、「アナリティクス」編です。
Exploratoryには様々なアナリティクスの機能があります。その中でも今回は相関分析、予測モデルを使った分析を実際にExploratoryを使いながら行っていただくことで、アナリティクスに関する基礎的な使い方を体験していただければと思います。
所要時間は20分ほどとなっています。
それでは、さっそく始めていきましょう!
今回は従業員の「給料」に関係のある要因を知りたいとします。
サンプルデータの従業員データを使って、従業員の給料には何が関係しているのかを調べるために、相関分析、さらに予測モデルを使った分析を簡単に行ってみましょう。
今回使う従業員データは1行が1従業員になっており、給料や勤続年数などの従業員に関する属性情報が列として入っています。
従業員データはこちらのページからダウンロードできます。
従業員データをダウンロードできたら、ダウンロードしたフォルダを開き、「従業員データ.csv」をExploratoryの画面にドラッグ&ドロップします。
インポートダイアログが表示されるので、そのまま「インポート」ボタンをクリックしてインポートします。
任意のデータフレーム名を指定して、「作成」ボタンをクリックします。
従業員データをインポートすることができました。
それでは、さっそく給料と相関関係のある変数はどれか、それはどのような関係なのかを調べていきましょう。
ちなみに、相関関係とは2つの変数のうち、1つの変数の値が変わるともう1つの変数の値も一定の規則を持って一緒に変わる関係のことを言います。
使い方ガイドの「可視化」編では、相関関係を可視化するために「散布図(集計あり)」を使いましたが、給料と全ての列の相関関係を調べるために散布図を一つずつ作成するのは大変な作業になります。
そこで今回は、Exploratoryのサマリビューの「相関」モードという機能を使って、給料と他の全ての変数との関係を一気に調べてみたいと思います。
サマリビューを開き、「相関」ボタンをクリックします。
相関を見たい列に「給料」を選択します。
相関モードでは、データタイプに合わせてそれぞれの変数との関係を可視化したチャートと相関関係の強さを表す指標が一気に自動的に生成されます。
数値型の場合は値を等幅で10等分し、それぞれの区間における平均値がラインチャートとして可視化されます。薄い水色の区間は95%信頼区間になります。
カテゴリー型の場合は、それぞれのカテゴリーにおける平均値とその95%信頼区間がエラーバーとして可視化されます。
相関の対象に数値型の列が選ばれている場合、それぞれの列には下記の指標が表示されます。
ちなみに、各指標の右横にある「i」を押すことで、指標の意味を確認できます。
例えば、R2乗の指標の「i」を押すと下記のようにポップアップが表示され、指標の意味を確認することが可能です。
相関モードを使用したとき、デフォルトでは「R2乗」を使って相関の強い順に列がソート(並び替え)されています。
給料と最も相関の強い変数は「職位」で、チャートを見ると、「職位」が上がると「給料」の平均値も上がっていることがわかります。
次に相関が強いのは「職種」で、チャートを見ると「マネージャー」や「リサーチディレクター」給料は他の職種に比べて高いのがわかります。
指標を見ると、R2乗は0.8161と相関がかなり高いのがわかりますが、先ほどの「職位」のR2乗である0.9301と比べると、そこまでは強くないことがわかります。
相関モードを終了したい場合、右上にある「×」ボタンをクリックします。
このように、「相関モード」を使って効率的に目的と他の全ての列との間の関係を一気に調べることができます。
相関モードの詳細については、こちらのセミナーでも紹介しておりますので、興味がある方はご覧ください。
例えば、従業員ごとの給料データがあったとします。今回の予測対象は給料で、属性として職業や性別、年齢の列があります。
予測モデルを作る時に、予測対象の列のことを目的変数、目的変数を予測する上で使用する列のことを予測変数や説明変数と言います。
こういったデータがあれば、統計や機械学習の「アルゴリズム」を使って、顧客の属性とコンバージョンの関係をもとに、将来を予測するために、過去のデータの中にあるパターンを数式化またはルール化できます。
このように、アルゴリズムが検出したデータの中にあるパターンを表現したものを「予測モデル」と呼びます。
予測モデルを使うと、新しい従業員が入ってくるとした時にどれくらいの給料になるのかをを予測できます。
また、予測モデルを作ると、データの中にあるパターンに関して、例えば以下のことも理解できます。
今回は従業員の「給料」を予測する線形回帰のモデルを作成します。
今回は、先ほどの相関モードから「線形回帰」のモデルを作成してみましょう。給料と「相関」が強い上位4つの変数である「職位」から「年齢」までを選択します。
まず、「職位」をクリックし、次にシフトキーを押しながら「年齢」を押すことで、4つの列を一度に複数選択できます。
選択されている列の列ヘッダメニューから「線形回帰を作成」を選択します。
アナリティクスビューに移り、線形回帰のモデルが作成されていることが確認できます。
予測モデルを作成すると、予測モデルを解釈するための複数のタブが表示されます。
Exploratoryでは、どのタイプの予測モデル(例:線形回帰、決定木、ランダムフォレストなど)でも「アナリティクスの文法」と言うフレームワークを使って変数間の関係を同じ切り口で解釈していくことができます。
「アナリティクスの文法」の詳細に興味のある方はこちらのセミナーをご覧ください。
変数重要度タブでは、どの変数が目的変数とより相関が強いのか、予測する時により重要なのかを調べることができます。
職位と職種が給料の予測に重要な変数であることがわかります。
なお、変数重要度に関する詳細は、こちらの資料をご参照ください。
影響度タブでは、それぞれの変数の値が変わると、目的変数の値はどのように変わるのかがわかります。
グレーの線は実測値を表しています。
青い線は予測値を表します。
職位が上がると給料が高くなる関係があることがわかります。
他の変数の値が変わらないと仮定した場合、職位が1上がると給料が2,768ドル(係数)上がるということがわかります。
「係数」タブでは、それぞれの変数の値が1単位変わったときに変化する給料の値とその信頼区間が可視化されています。
それぞれのバーは、給料が増加する場合は青、減少する場合は赤、さらに増加するとも減少するとも言えない場合はグレーで表示されています。
「サマリ」タブでは、この予測モデルの予測精度が確認できます。
R2乗はデータの平均からのばらつきをモデルが説明できている割合の指標で、0から1の間の値を取ります。1に近ければ近いほど、モデルがデータのばらつきをよく説明できていることを示します。
サマリタブで表示される各指標の左横にある「i」のボタンを押すことで、指標の意味を確認できます。
今回作成したモデルのR2乗は0.943なので、このモデルは給料のばらつきの94.3%を説明できていると解釈できます。
線形回帰の詳細については、こちらのセミナーでも紹介しておりますので、興味がある方はご覧ください。
Exploratoryの使い方のアナリティクス編は以上となります!
Exploratoryの使い方シリーズの他のパートには下記のリンクからご確認いただけます。ぜひ次の「ダッシュボード」のパートも実施してみてください。