Exploratory アワー #791 - AI プロンプト: 正規表現を使ってテキストデータを加工する方法

テキストデータの中には、1つのセルに複数の情報が混在しているケースが多々あります。特定のパターンを持つ情報(日付など)を抽出したい場合、従来の単純な文字列抽出では対応が難しいことがあります。

そこで今回は、Exploratoryの「AIプロンプト」機能を活用し、正規表現(文字列のパターンを表現する特殊な記法)の知識がなくても、AIの力を借りて複雑なテキストデータから必要な情報を正確に抽出する方法を紹介します。

問題

1つのセル内に企業名や日付などの複数の情報が含まれており、そこから日付データのみを取り出したいという課題があります。

しかし、日付の形式が「2017-04-07」や「2014-12-31」のようにデータによって異なる場合、特定の文字列を指定するだけの抽出方法では、全てのパターンを網羅することができません。これを解決するには「正規表現」という高度な技術が必要になりますが、その記法は複雑で習得に時間がかかるという問題があります。

解決方法

AIプロンプトを活用した日付情報の抽出

今回使用するデータは、1つのセルの中に企業名や日付などが混在している「企業情報」データです。この中から「YYYY-MM-DD」形式の日付部分だけを抽出する手順を説明します。

テーブルビューから「AIデータ加工」を選択します。これにより、自然言語で指示を出すだけで複雑なデータ加工が可能になります。

プロンプトの入力欄には、以下の指示を入力します。

企業情報の列から日付を取り出して

正規表現という言葉を直接使わなくても、AIが文脈を判断して適切なパターンマッチングの処理を提案してくれます。

AIが自動的に正規表現(例:\\d{4}-\\d{2}-\\d{2})を生成します。これは「数値4桁、ハイフン、数値2桁、ハイフン、数値2桁」というパターンを意味しており、複雑な記法を自分で記述する必要はありません。

「実行」ボタンをクリックしてステップとして追加することで、日付列を抽出することができました。

ビデオ

Export Chart Image
Output Format
PNG SVG
Background
Set background transparent
Size
Width (Pixel)
Height (Pixel)
Pixel Ratio