
政府統計(e-Stat)などから取得したデータにおいて、日付列の形式が特殊な場合があります。例えば、最初の行にのみ「年」の情報があり、それ以降の行には「四半期」の情報しか含まれていないようなケースです。
このようなデータを日付型に変換する場合、従来の手順では「年の抽出」「欠損値の補完」「文字列の結合」といった複数の複雑なステップが必要でした。
しかし、Exploratoryの「AI プロンプト」機能を利用することで、自然言語による指示だけで、複雑なロジックを伴う日付変換を効率的に実行することが可能です。
インポートしたデータの「日付」列において、年間の最初の行にのみ「1994」といった年の情報が記載され、続く行には四半期を示す記号(例:1-3、4-6など)のみが並んでいる場合、そのままでは日付型として認識されません。
この形式のデータを正しく扱うには、各行に対して適切な「年」の情報を補完し、さらに四半期の開始月に変換した上で日付型にする必要があります。UI操作だけでこれを行おうとすると、計算作成や欠損値の穴埋めを組み合わせる必要があり、非常に手間がかかります。
今回使用するデータは、e-Statで公開されている四半期デフレーターというデータを使用します。
このデータでは、最初の行にのみ「年」の情報があり、それ以降の行には「四半期」の情報しか含まれていないデータとなっています。

複雑な構造を持つ日付列を変換するために、「AI データ加工(AI プロンプト)」を使用します。
データフレームのメニューから「AIデータ加工」をクリックします。

プロンプト入力欄には、データの形式と期待する出力結果を定義した指示を入力します。
日付の列を以下のルールを使って日付型に変換したい
yyyy/ 1- 3.はyyyy-01-01
4- 6.は1つ前にあるyyyyを使ってyyyy-04-01
7- 9.は2つ前にあるyyyyを使ってyyyy-07-01
10-12.は3つ前にあるyyyyを使ってyyyy-10-01

プロンプトを入力して実行すると、AIが正規表現を用いたパターンマッチングや、前後の行を参照するロジックを含むRスクリプトを自動的に生成します。

これにより、最初の行にしか年情報がなかったデータが、すべての行で正しい年と月を持つ日付型データへと変換されます。
