Amazon Athenaに接続してデータをインポートする方法をご紹介します。
まずはじめに、ご利用のAWSアカウントに必要な権限を付与してください。(または、管理者に依頼してください。)
以下の権限を付与します。
こちらのノートに従って、unixODBCをインストールしてください。
まず、Amazon Athena ODBC ドライバをダウンロードして、インストールしてください。
以下はMacOSの例です。
まず、ダウンロードしたdmgファイルをダブルクリックします。
「Continue」をクリックして先に進みます。
「Agree」を選択してライセンスに同意します。
「Install」を選択します。
(必要があれば)管理者で認証します。
「The installation was successful」と表示されたら、インストールの完了です。
以下の設定ファイルをテキストエディタで開きます。
/Library/simba/athenaodbc/lib/simba.athenaodbc.ini
以下の行を追加します。
ODBCInstLib=/usr/local/lib/libodbcinst.dylib
変更を保存します。
プロジェクトメニューから、「データコネクション」を選択します。
「追加」ボタンをクリックします。
「Amazon Athena」を選択します。
コネクションを追加するダイアログが開いたら、「コネクション名」、「AWSリージョン」、「S3出力場所」、「ユーザー名」、「パスワード」を入力します。
Amazon Athenaの接続に任意の名前をつけます。
デフォルトの値 (Simba Athena ODBC Driver)を使います。
Amazon Athenaのリージョンを入力します。 (例 us-west-2)
出力の結果を保存する場所です。書き込みの権限のあるパスを指定してください。 (例 aws-athena-query-results-xxxxxxxxxxx-us-west-2)
オプショナルのパラメーターです。インターネット経由で接続するのではなく、Virtual Private Cloud (VPC) のインターフェイス VPC エンドポイント (AWS PrivateLink) やAWS Glue VPC エンドポイントを使用して Athena に直接接続する場合に指定します。
インターフェイス VPC エンドポイントを作成した後、エンドポイントのプライベート DNS ホスト名を有効にすると、デフォルトの Athena エンドポイント (https://athena.Region.amazonaws.com) が VPC エンドポイントに解決されます。
プライベート DNS ホスト名を有効にしない場合は、Amazon VPC が以下の形式で使用できる DNS エンドポイント名を指定します。(VPC_Endpoint_IDの部分を実際のIDに置き換えてください。)
VPC_Endpoint_ID.athena.Region.vpce.amazona
オプショナルのパラメーターです。ワークグループによる制約をつける場合に指定します。
AWSアクセスキーIDを入力します。
AWSシークレットアクセスキーを入力します。
「コネクションをテスト」ボタンをクリックして、接続が成功することを確認してください。
「追加」ボタンをクリックしてコネクションを保存します。
以下のシステム設定のダイアログでウェブ・プロキシを設定している場合、その設定がAmazon Athenaの接続時に使用されます。
データフレームの隣にあるプラス(+)のボタンをクリックして、データベースデータを選択します。
Amazon Athenaを選択します。
作成した接続が使用され、スキーマやテーブルが見えるのを確認します。
select * from sampledb.elb_logs
where request_verb = 'GET'
and backend_port = 80
「保存」ボタンをクリックしてデータを取り込んだら、データの分析を開始できます。