質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.37%
AWS Glue

AWS Glueは、分析のためのデータの抽出や変換、ロードを簡単にするフルマネージド型のサービスです。データ処理の自動化の他、データ収集やETL処理も自動化・サーバレス化することが可能。AWSに保存したデータを指定すると、AWS Glueでデータ検索することもできます。

PostgreSQL

PostgreSQLはオープンソースのオブジェクトリレーショナルデータベース管理システムです。 Oracle Databaseで使われるPL/SQLを参考に実装されたビルトイン言語で、Windows、 Mac、Linux、UNIX、MSなどいくつものプラットフォームに対応しています。

Amazon Redshift

Amazon Redshiftは、Amazon社が提供する 高速かつ完全マネージド型でペタバイト規模の クラウドデータウェアハウスサービスです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

AWS(Amazon Web Services)

Amazon Web Services (AWS)は、仮想空間を機軸とした、クラスター状のコンピュータ・ネットワーク・データベース・ストーレッジ・サポートツールをAWSというインフラから提供する商用サービスです。

Q&A

1回答

3557閲覧

[AWS] AWS GlueからRedshiftへの接続方法

unitedstar-tech

総合スコア14

AWS Glue

AWS Glueは、分析のためのデータの抽出や変換、ロードを簡単にするフルマネージド型のサービスです。データ処理の自動化の他、データ収集やETL処理も自動化・サーバレス化することが可能。AWSに保存したデータを指定すると、AWS Glueでデータ検索することもできます。

PostgreSQL

PostgreSQLはオープンソースのオブジェクトリレーショナルデータベース管理システムです。 Oracle Databaseで使われるPL/SQLを参考に実装されたビルトイン言語で、Windows、 Mac、Linux、UNIX、MSなどいくつものプラットフォームに対応しています。

Amazon Redshift

Amazon Redshiftは、Amazon社が提供する 高速かつ完全マネージド型でペタバイト規模の クラウドデータウェアハウスサービスです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

AWS(Amazon Web Services)

Amazon Web Services (AWS)は、仮想空間を機軸とした、クラスター状のコンピュータ・ネットワーク・データベース・ストーレッジ・サポートツールをAWSというインフラから提供する商用サービスです。

0グッド

0クリップ

投稿2020/10/13 04:06

編集2020/10/13 07:41

実現したいこと

現在、Lambdaで動かしている処理が制限時間の15分を超えそうになっており、AWS Glue(Python shell)への移行を検討しています。

そこで、このClassmethodの記事のようにPython shellにてJobを作成・実行し、RedshiftにSQLを投げて実行したいです。

試したことや設定

"接続"を作成

AWS GlueのConsoleの[データカタログ]-[データベース]-[接続]から、対象のRedshiftへの接続を作成
=> "接続のテスト"を実行し、成功することを確認

IAMロールを作成

AmazonS3FullAccessAWSGlueServiceRoleを付与したRoleを作成。Glue実行時にはこのRoleを使用。

psycopg2モジュールを配置

psycopg2_binary-2.8.6-cp36-cp36m-manylinux1_x86_64.whlをS3に配置し、Python shell Job実行時にPythonライブラリパスとして追加。

実行結果

上記の設定で、Redshift上のTableにselectを実行するJobを実行。

Python3

1import psycopg2 2def get_connection(): 3 rs = "postgresql://***USER***:***PASSWORD***@***REDSHIFT ENDPOINT***:5439/***DB NAME***" 4 return psycopg2.connect(rs) 5with get_connection() as conn: 6 with conn.cursor() as cur: 7 cur.execute("select * from SCHEMA.TABLE") 8 rows = cur.fetchall() 9 print(rows)

"接続"をAttachして実行

なぜか、S3へのアクセスがForbiddenとなり失敗。(S3に上げたモジュールへのアクセスが失敗している?)

Traceback (most recent call last): File "/tmp/runscript.py", line 114, in <module> temp_file_path = download_user_script(args.scriptLocation) File "/tmp/runscript.py", line 91, in download_user_script download_from_s3(args.scriptLocation, temp_file_path) File "/tmp/runscript.py", line 81, in download_from_s3 s3.download_file(bucket_name, s3_key, new_file_path) File "/usr/local/lib/python3.6/site-packages/boto3/s3/inject.py", line 172, in download_file extra_args=ExtraArgs, callback=Callback) File "/usr/local/lib/python3.6/site-packages/boto3/s3/transfer.py", line 307, in download_file future.result() File "/usr/local/lib/python3.6/site-packages/s3transfer/futures.py", line 106, in result return self._coordinator.result() File "/usr/local/lib/python3.6/site-packages/s3transfer/futures.py", line 265, in result raise self._exception File "/usr/local/lib/python3.6/site-packages/s3transfer/tasks.py", line 255, in _main self._submit(transfer_future=transfer_future, **kwargs) File "/usr/local/lib/python3.6/site-packages/s3transfer/download.py", line 345, in _submit **transfer_future.meta.call_args.extra_args File "/usr/local/lib/python3.6/site-packages/botocore/client.py", line 357, in _api_call return self._make_api_call(operation_name, kwargs) File "/usr/local/lib/python3.6/site-packages/botocore/client.py", line 661, in _make_api_call raise error_class(parsed_response, operation_name) botocore.exceptions.ClientError: An error occurred (403) when calling the HeadObject operation: Forbidden

"接続"をAttachせずに実行

Libraryは展開できているようだが、Redshiftへの接続エラーが発生。

Traceback (most recent call last): File "/tmp/runscript.py", line 123, in <module> runpy.run_path(temp_file_path, run_name='__main__') File "/usr/local/lib/python3.6/runpy.py", line 263, in run_path pkg_name=pkg_name, script_name=fname) File "/usr/local/lib/python3.6/runpy.py", line 96, in _run_module_code mod_name, mod_spec, pkg_name, script_name) File "/usr/local/lib/python3.6/runpy.py", line 85, in _run_code exec(code, run_globals) File "/tmp/glue-python-scripts-btjivu4_/test.py", line 7, in <module> File "/tmp/glue-python-scripts-btjivu4_/test.py", line 5, in get_connection File "/glue/lib/installation/psycopg2/__init__.py", line 127, in connect conn = _connect(dsn, connection_factory=connection_factory, **kwasync) psycopg2.OperationalError: could not connect to server: No route to host Is the server running on host "REDSHIFT_ENDPOINT" (***.***.***.***) and accepting TCP/IP connections on port 5439? During handling of the above exception, another exception occurred: Traceback (most recent call last): File "/tmp/runscript.py", line 142, in <module> raise e_type(e_value).with_traceback(new_stack) File "/tmp/glue-python-scripts-btjivu4_/test.py", line 7, in <module> File "/tmp/glue-python-scripts-btjivu4_/test.py", line 5, in get_connection File "/glue/lib/installation/psycopg2/__init__.py", line 127, in connect conn = _connect(dsn, connection_factory=connection_factory, **kwasync) psycopg2.OperationalError: could not connect to server: No route to host Is the server running on host "REDSHIFT_ENDPOINT" (***.***.***.***) and accepting TCP/IP connections on port 5439? Traceback (most recent call last): File "/tmp/runscript.py", line 123, in <module> runpy.run_path(temp_file_path, run_name='__main__') File "/usr/local/lib/python3.6/runpy.py", line 263, in run_path pkg_name=pkg_name, script_name=fname) File "/usr/local/lib/python3.6/runpy.py", line 96, in _run_module_code mod_name, mod_spec, pkg_name, script_name) File "/usr/local/lib/python3.6/runpy.py", line 85, in _run_code exec(code, run_globals) File "/tmp/glue-python-scripts-btjivu4_/test.py", line 7, in <module> File "/tmp/glue-python-scripts-btjivu4_/test.py", line 5, in get_connection File "/glue/lib/installation/psycopg2/__init__.py", line 127, in connect conn = _connect(dsn, connection_factory=connection_factory, **kwasync) psycopg2.OperationalError: could not connect to server: No route to host Is the server running on host "REDSHIFT_ENDPOINT" (***.***.***.***) and accepting TCP/IP connections on port 5439? During handling of the above exception, another exception occurred: Traceback (most recent call last): File "/tmp/runscript.py", line 142, in <module> raise e_type(e_value).with_traceback(new_stack) File "/tmp/glue-python-scripts-btjivu4_/test.py", line 7, in <module> File "/tmp/glue-python-scripts-btjivu4_/test.py", line 5, in get_connection File "/glue/lib/installation/psycopg2/__init__.py", line 127, in connect conn = _connect(dsn, connection_factory=connection_factory, **kwasync) psycopg2.OperationalError: could not connect to server: No route to host Is the server running on host "REDSHIFT_ENDPOINT" (***.***.***.***) and accepting TCP/IP connections on port 5439?

どのようにすればAWS GlueからRedshiftにSQLを投げられるのでしょうか?
知見のある方のお知恵を拝借できれば幸いです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

参考記事はGlueの本来の使い方とはだいぶ異なると思いますね…。
GlueはETLのためのサービスで、Lambdaの代わりにバッチを長時間動かすためのものではありません。(むしろこういう使い方もできるのか、とは思いましたが。)
※ETL一般の話ですが、あるデータソースからデータを取得し、それに何らかの処理を加えて変換や整理を行い(行わないことももちろんある)、別のデータソースに流し込む、というのが大まかにこれらのツール/サービスでできることです。
ETL(Extract/Transform/Load)とは?

Lambdaよりも長時間の処理を動かしたいのであれば大まかに下記のどれかになります。

  • EC2インスタンスを立ててその上で動かす

この場合EC2インスタンスの料金が当然かかる

  • ECSのScheduled Tasksで動かす

Fargateを使うことでEC2を意識せずに実行可能

  • AWS Batchで動かす

内部ではECSが動くがスポットインスタンスが使用可能。Fargateには知る限り未対応…。

  • Step Functions等で複数のLambda Functionを連携させる

単体の処理に15分以上かかる場合は難しい

今回だとScheduled TasksかAWS Batchかがいいのではないでしょうか。

ちなみに質問で起こっている問題に対しては、そのようなことを実際にやったことがないので推測ですが下記のように答えます。

"接続"をAttachして実行

S3の、スクリプトが配置されているところに対する参照権限があるロールを使用しているかどうかが気になります。
ただアタッチせずに実行している時にS3からスクリプトダウンロードできているので、Glueが内部的にどのネットワークで動いているかが問題になりそうな気もします。

"接続"をAttachせずに実行

こちらの問題はいずれでも起きそうな気はしますが…。
Glueのサービス自体がRedshiftにアクセスできるとは行っても、その接続情報をPython Shellが読み込んでるかはわかりません。

いずれの問題も、Glueが内部的にどのネットワークで動いているかによって挙動が変わりそうですが、そこをきっちりと説明したドキュメントはちょっと知りません(探せばどこかにあるのかもしれませんが…)

Glueは内部的にどのように動いているか見えないので、本来の使い方でない使い方をするのはあまりオススメはできません…。
本来はこのPython Shellの実行はTransformに対応する部分を行うことを想定して作られているはずで、Python ShellでDB接続することは想定されていないと思います。

※追記
一応こういうものを見つけたので参考として貼っておきます。参考になるかわかりませんが…。
5TB/日 のデータをAWS Glueでさばくためにやったこと(概要編

投稿2020/10/13 07:05

編集2020/10/13 08:14
yu_1985

総合スコア7586

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.37%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問