
政府や自治体が公開しているe-StatなどのオープンデータをExploratoryにインポートする際、Excel特有の「セルの結合」が原因で列名が分散したり、不要な集計行が含まれていたりすることがあります。
これらの「汚いデータ」を、UIからの操作や複雑な計算式を考えることなく、自然な日本語の指示だけで一括でデータを綺麗にする方法として、AI プロンプト(AIデータ加工)の活用方法を紹介します。
Excel形式のオープンデータをインポートすると、以下のような問題が発生し、そのままでは分析や可視化に使用できないことが多々あります。
今回使用するサンプルデータは、神奈川県が公開している「学校基本統計」のデータです。このデータは、1行目から数行にわたって列名の情報が分散しており、さらに年度ごとの不要な行が含まれています。

データを綺麗に整えるために、Exploratoryの「AIデータ加工」機能を使用します。この機能では、AIに対してどのようにデータを整えてほしいかを自然言語で指示することができます。
テーブルビューから「AIデータ加工」を選択します。

プロンプト入力欄には、以下のように指定します。
データを以下の順番できれいに整えてください。
1. 1行目から数行にわたるヘッダー情報を結合して、列名を整えてください
2. 列名として使った行は削除してください
3. 年度を表している行、列は削除してください
4. 値がすべて欠損値の列は削除してください
5. 集計の合計を表している行は削除してください
6. 最後にすべての列のデータタイプを整えてください

今回のデータは74行であるため、サンプルサイズを100行に設定して実行します。

実行すると、AIが自動的にRのスクリプトを生成し、複雑な列名の結合や不要な行のフィルタリングを瞬時に行います。プレビュー画面で列名が綺麗になり、数値列が正しく認識されていることを確認できれば、ステップとして保存します。

これにより、手作業では時間がかかるExcelデータの修正作業を、AIへの指示だけで完了させることができました。

この手法は他のオープンデータにも汎用的に活用できるため、データ加工の工数を大幅に削減することが可能です。