Exploratory アワー #787 - AI プロンプト: 異なるデータの形式を統一する方法

異なるフォーマットを持つ複数のデータソースを統合する際、手作業でのデータ加工は多大な時間を要します。特に列名やデータの保持形式が異なる場合、それらを一つずつ修正していく作業は非効率です。

そこで今回は、Exploratoryの「AI データ加工(プロンプト)」機能を活用し、AIに指示を与えるだけで異なるデータ形式を瞬時に統一し、最終的に一つのデータにまとめる手順を紹介します。

問題

複数の自治体や組織から提供されるデータは、項目名やデータの持ち方が統一されていないことが一般的です。例えば、あるデータでは「学校数」が直接記載されている一方で、別のデータでは「全日制」や「定時制」といった内訳のみが存在し、合計値を計算する必要がある場合があります。

このような形式の異なるデータを結合しようとすると、列名の不一致や構造の違いが障害となり、データの統一ができません。手作業で一つひとつのデータフレームを加工していくのは、対象となるデータが増えるほど果てしない作業になってしまいます。

解決方法

今回使用するサンプルデータは、神奈川県と東京都の「学校基本統計」のデータです。

神奈川県のデータは学校の区分ごとに列が分かれています。

一方で東京都のデータは異なる構造を持っています。

これらを「都道府県」「市区町村」「学校数」の3列にして、1つのデータフレームにまとめたいです。

神奈川県のデータフレームを開き、テーブルビューから「AI データ加工」を選択します。

プロンプトには、最終的に作成したいデータの形式を具体的に記述した以下のようにします。

このデータを以下の形式に変換してください。

都道府県,市区町村,学校数
神奈川県,鶴見区,9
神奈川県,神奈川区,8
東京都,千代田区,18
東京都,中央区,2

都道府県については、提供しているデータフレーム名から使用してください。

AIはこの指示を解釈し、適切なRスクリプトを自動生成します。例えば、神奈川県のデータでは内訳を合算して「学校数」を算出する処理や、必要な列だけに絞り込む処理(が自動的に組み込まれます。

プレビューで「都道府県」「市区町村」「学校数」の3列が正しく作成されていることを確認し、ステップとして実行します。

これにより、複雑な手作業なしにデータの整形が完了します。

異なるデータへの同じルールの適用

次に、東京都のデータに対しても同様の処理を行います。東京都のデータフレームに移動し、先ほどと同じプロンプトを使用して「AI データ加工」を実行します。

東京都のデータは元々「学校数」という列が存在するなど構造が異なりますが、AIはデータの現状を把握した上で、指示された3列の形式に変換するための最適なスクリプトを生成します。

実行すると、東京都のデータも神奈川県と同じ「都道府県」「市区町村」「学校数」という3つの列を持つ形式に整えられます。これで、2つの異なるデータソースが同じフォーマットで揃いました。

データの結合(マージ)

形式が統一された後は、これらを一つのデータフレームにまとめます。

ベースとなるデータフレーム(例:神奈川県)のステップメニューから「マージ(行を追加する)」を選択します。

結合対象として、先ほど整形した東京都のデータフレームを指定します。

実行することで、神奈川県のデータの下に東京都のデータが追加され、一つのデータとして統合されます。

このようにExploratoryのAIプロンプト機能を活用することで、専門的なコードを書くことなく、複雑なデータ整形と統合を効率的に進めることが可能になります。

ビデオ

Export Chart Image
Output Format
PNG SVG
Background
Set background transparent
Size
Width (Pixel)
Height (Pixel)
Pixel Ratio