Exploratoryで統計や機械学習の手法を使った分析を行いときには、一般的に「アナリティクス・ビュー」に移動して、利用したいアナリティクスのタイプを選択して、分析を進めることになります。(各アナリティクスの使い方はこちらをご覧ください)
しかし、一部の要件を満たすために、ステップでアナリティクスを実行することが可能で、このノートではそちらについて紹介いたします。
例えば、アナリティクス・ビューで得られたアナリティクスの結果のデータを使って、更なる可視化を行いたいときには、アナリティクスの各タブで得られた情報をデータフレームやデータとして書き出して再利用することが可能です。
このとき問題になることの1つに、このアナリティクスを実行するために設定していたステップを変更したときに、再度データのエクスポートや保存をやり直す必要が生じる、ということがあります。
そこでそういった、アナリティクスの結果を再利用するときの再現性の問題を回避するときや、アナリティクス・ビューでサポートをされていないタイプのアナリティクスを実行したいときには、列ヘッダーメニューの「アナリティクス」を利用します。
なお、利用可能なアナリティックスのタイプはアナリティクスにアクセスするときの列のデータ型によって変わってきます。
また、アナリティクス・ビューでサポートされていないアナリティクスは下記となります。
Numeric型/Character型の列で表示されるアナリティクス
Numeric型の列からのみアクセス可能なアナリティクス
Character型の列からのみアクセス可能なアナリティクス
各種アナリティクスは、ステップメニューの「アナリティクス」または「モデルを構築・評価」からもアクセスが可能です。
説明のしやさから「モデルを構築・評価...」から先に説明すると、該当のメニューからは、予測モデルを構築し、新しいデータに対する予測が可能なアナリティクスにアクセスが可能です。
一方で「アナリティクス」では前述したタイプ以外のアナリティクスにアクセスが可能です。
今回は「線形回帰」を例に、ステップでアナリティクスを実行していきます。
例えば、以下のように、1行が1人の従業員を表し、各従業員の給料などの属性情報を列に持つデータがあったとします。
このデータを使って「線形回帰」を使って「給料」を予測したいときには、目的変数である「給料」の列ヘッダーメニューから、「アナリティクス」の「この列を予測する線形回帰モデルを構築」を選択します。
すると以下のように線形回帰の予測モデルを構築するためのダイアログが表示されるので、必要な設定を行い実行します。
すると、予測モデルの場合は以下のような予測モデルのサマリ情報が表示されます。この結果はアナリティクスビューで表示される「サマリタブ」と「係数表」と同等の情報です。
そして、モデルのサマリのステップのステップメニューからはいくつかの後続の処理の選択が可能です。
ステップメニューの追加ボタンをクリックすると、
以下のように選択可能なオペレーションが表示されます。
例えば、「トレーニングデータで予測」をクリックして実行すると、以下のように、トレーニングデータに対する予測のステップが追加され、各行に対する予測結果の情報が列として追加され、これらのデータを使った可視化などが可能になります。
このようにステップでアナリティクスを実行すると、仮にアナリティクスを実行する前のステップに変動があったとしても、ステップが保存されていることで、更新されたデータに対する処理が断絶することなく実行され、再現性を保った形でこれらのデータを使った可視化などが可能になるわけです。