Exploratory アワー #775 - AI プロンプト: 10列目以降の列を対象に欠損値を一括で埋める

クラスタリングなどの分析手法を実行する際に、欠損値が含まれているとその行が自動的に除外され、分析対象のデータが大幅に減少してしまうことがあります。

データの質を維持し、正確な分析結果を得るためには、これらの欠損値を適切に補完することが重要です。今回は、Exploratoryの「AI プロンプト」機能を活用して、複数の列に存在する欠損値をデータ型に合わせて一括で補完する方法を紹介します。

問題

アンケートデータなどにおいて、多くの列に欠損値(NA)が存在する場合、以下のような課題が生じます。

解決方法

今回使用するサンプルデータは、1行が1回答者の顧客満足度調査データです。最初の10列には回答者の属性情報が含まれており、11列目以降に5段階評価の数値列や、文字列の回答列が並んでいます。

サマリービューを確認すると、多くの列で欠損値を示す赤色のバーが表示されています。

今回は、数値列については、データの傾向を維持するために「列の平均値」で補完し、カテゴリー列については、未回答であることを明示するために「未回答」というラベルで補完します。

テーブルビューから「AIデータ加工(AIプロンプト)」を選択します。これにより、自然言語での指示に基づいたデータ加工が可能になります。

AIプロンプトのエディタが開いたら、対象となる範囲と処理内容を具体的に記述します。今回は11列目(Q1の総合満足度)以降の列を対象とし、プロンプトには次のように入力します。

10列目以降の数値列の欠損値をその列の平均値で、カテゴリ列の欠損値を未回答で埋めてください

「実行」ボタンをクリックすると、AIが適切なRスクリプトを生成し、指定した範囲の列に対して、データ型を判別しながら欠損値を補完していることが確認できます。

実行することで、数値列では、欠損値が平均値(例:3.147)で埋められています。平均値で補完しているため、処理の前後で列全体の平均値に変化はなく、統計的な性質を保ったまま全行を分析に使用できる状態になります。

カテゴリー列についても、欠損値だった箇所に「未回答」という値が入力されています。

ビデオ

Export Chart Image
Output Format
PNG SVG
Background
Set background transparent
Size
Width (Pixel)
Height (Pixel)
Pixel Ratio