Exploratory v15.5リリース：CatBoost、シルエット法、比率検定など、アナリティクス機能を大幅強化

こんにちは、Exploratoryの西田です。

このたび、Exploratory v15.5をリリースしました。

バージョン番号としてはマイナーリリースですが、今回のv15.5ではアナリティクス機能に大きな強化が入っています。

機械学習、クラスタリング、統計検定といった、データからより深いインサイトを得るための機能が大きく広がりました。

特に今回のリリースでは、単に分析手法を増やすだけでなく、次のような点を重視しています。

より高精度な機械学習モデルを使えるようにすること
パラメーター設定をわかりやすくし、モデル改善に取り組みやすくすること
クラスタリングの結果をより客観的に評価できるようにすること
A/Bテストや仮説検定など、実務でよく使う統計検定をより自然に行えるようにすること

AIが分析を支援してくれる時代だからこそ、その土台となるモデルや統計的な判断を、分析者自身が理解し、納得しながら使えることがますます重要になっています。今回のv15.5は、そのための大きな一歩となるリリースです。

機械学習モデルにCatBoostを追加

今回のリリースでは、新しい機械学習モデルとして CatBoost を追加しました。

CatBoostは、XGBoostやLightGBMと同じく、ブースティング系の機械学習モデルです。

近年、データサイエンスの世界では、特にカテゴリ変数の扱いに強いモデルとしてよく使われるようになっています。

ビジネスデータでは、数値だけでなく、地域、商品カテゴリ、顧客タイプ、流入チャネル、職種、業種など、多くのカテゴリ変数が含まれます。CatBoostは、こうしたカテゴリ変数を含むデータに対して、強力な選択肢となります。

ExploratoryではすでにXGBoost、LightGBMをサポートしていますが、今回CatBoostが加わったことで、目的やデータの性質に応じて、複数の高精度な機械学習モデルを比較できるようになりました。

予測精度を高めたい場合や、カテゴリ変数を多く含むデータを扱う場合には、ぜひCatBoostも試してみてください。

機械学習モデルのパラメーター設定UIをリデザイン

機械学習モデルでは、モデルの性能を高めるためにパラメーターの調整が重要になります。

しかし、XGBoost、LightGBM、CatBoost、ランダムフォレストなどのモデルには多くのパラメーターがあり、それぞれが何を意味しているのか、どの値を選べばよいのかがわかりにくいという問題がありました。

そこで今回のリリースでは、機械学習モデルのパラメーター設定UIを大幅にリデザインしました。

各パラメーターを、その役割や目的ごとにグループ分けし、機械学習モデル間でできるだけ一貫した並びになるように整理しています。

これにより、たとえば以下のような観点でパラメーターを探しやすくなりました。

モデルの複雑さを調整するもの
学習の進み方を調整するもの
行や列のサンプリングを調整するもの
過学習を抑えるためのもの
検証データや早期停止に関するもの

さらに、それぞれのパラメーターには、推奨値やヒントを表示するようにしました。

たとえば、「値を大きくすると何が起きやすいのか」「小さくするとどういう影響があるのか」といった情報を見ながら設定できるため、パラメーターの名前に詳しくなくても、モデル改善に取り組みやすくなっています。

機械学習モデルは、ただ作るだけではなく、結果を見ながら調整していくことが重要です。今回のUI改善によって、そのチューニング作業をより直感的に行えるようになっています。

K-Meansクラスタリングにシルエット法を追加

K-Meansクラスタリングでは、あらかじめクラスターの数を決める必要があります。

しかし、「いくつのクラスターに分けるのがよいのか」は、実際には判断が難しい問題です。

これまでExploratoryでは、クラスター数を選ぶ方法としてエルボー法をサポートしていました。エルボー法はよく使われる方法ですが、チャート上で「肘（エルボー）」にあたるポイントがはっきり見えないこともあり、その場合は判断が曖昧になりがちです。

そこで今回のリリースでは、新たにシルエット法を追加しました。

シルエット法では、それぞれのデータが、割り当てられたクラスターにどれだけよく属しているか、そして他のクラスターとどれだけ分離しているかを評価します。

その結果として得られるシルエットスコアを見ることで、クラスターの数をより定量的に判断できます。

さらにExploratoryでは、平均シルエットスコアだけでなく、負のシルエットスコアの割合も確認できるようにしています。平均スコアが高くても、負のシルエットスコアを持つデータが多い場合、そのクラスター分けには注意が必要です。見かけ上はよく見えるものの、一部のデータがうまく分類されていない可能性があるためです。

このように、平均シルエットスコアと負のシルエットスコアの割合を組み合わせて見ることで、より現実的にクラスター数を判断できるようになります。

また、最適なクラスター数を選ぶためだけでなく、各クラスターごとのシルエットスコアもサマリ表に表示するようにしました。