SQLAlchemyなどのORMエンジンを使う意味

Pythonを使ってRedshiftのデータを加工、分析、表示するコードを書いています。
DBから取得したデータをpandasのDataFrameに入れていろいろと触る方針です。
PythonからRedshiftに接続する方法を調べていて、psycopg2を使って接続、SQLを実行する方法は確立したのですが、SQLAlchemyをかませてcreate_engineしてから接続する方法を紹介しているところが非常に多く、混乱しています。
psycopg2を使って直接接続すれば

python
1import pandas as pd
2import psycopg2 as pg2
3
4con= pg2.connect(host=server,database=db,port=dbport,user=username,password=userpass) as con:
5df=pd.read_sql(query,con)
6con.close()

のようなコードで済むところを、

python
1from sqlalchemy create_engine
2import pandas as pd
3import numpy as np
4import psycopg2 as pg2
5
6db_conf='postgresql+psycopg2://{user}:{passwd}@{host}:{port}/{dbname}'.format(
7    user=username,passwd=userpass,host=server,port=dbport,dbname=db)
8engine=create_engine(db_conf)
9con=engine.connect()
10data=pd.read_sql(q,engine)
11con.close()
12engine.dispose()

上記のように一度SQLAlchemyでエンジンを作ってデータを取る方法を紹介しているのですが、変数も増えるしコードも長くなるしいいことがないように思えてなりません。

わざわざコードを冗長にしているからには相応の理由があると思うのですが、pythonスクリプトからSQLAlchemyを一度はさんでSQLに接続するメリット、使わなかった場合のデメリットとはなんでしょうか？

行動規範の内容に同意します

回答4件

ベストアンサー

メリット : Pythonのコードの中にSQLを記述しないで済む。
デメリット : SQLAlchemyに熟練している人が少ない。SQLAlchemyを通すと複雑なSQLになる場合、SQLを覚えておいた方がパフォーマンスが良い場合が多そう。

わたしはOracleのパフォーマンス・チューニングで呼ばれることが多いですが、SELECT文のJOINさえ知らないとか、PARALLELヒントも知らないなどSQL入門レベルの知識の人たちだけで書いたコードで非効率なSQLになっていることが多いです。最初からOracle SQL, PL/SQLの熟練者をひとりでも入れてパフォーマンス面のチェックをさせたら、何千万円、何億円単位で無駄な費用を削れることが少なくないです。

投稿2018/10/05 10:10

Orlofsky

総合スコア16419

Redshiftのデータを加工、分析、表示するコードを書いています。
DBから取得したデータをpandasのDataFrameに入れていろいろと触る方針です。

このような用途の場合、ORMはあまり役に立ちません。

ORMが効果を発揮するのは、「CRUD」と呼ばれるような、Webシステムで1件のデータとそれに紐づくリレーションのデータを操作する、というような場面です。高度なSQLを書いての集計や、逆にただデータを取ってくるだけの場合は、ORMである意味はあまりありません。

投稿2018/10/05 10:39

maisumakun

総合スコア146715

メリット以前に、psycopg2のコネクションを渡してちゃんと動くんですか？

con : SQLAlchemy connectable (engine/connection) or database string URI or DBAPI2 connection (fallback mode)

Using SQLAlchemy makes it possible to use any DB supported by that library. If a DBAPI2 object, only sqlite3 is supported.

pandas.read_sql — pandas 0.23.4 documentation

SQLAlchemyを使う、URIを文字列で渡す、sqlite3のコネクションを使う、以外の選択肢はないように読めるのですが。

投稿2018/10/05 14:13

hayataka2049

総合スコア30939

pandasで使う場合は、sqlalchemyを使ってもコードは長くはならないです。以下のコードで動きます。engineをdisposeする必要があるかどうかは議論があるところですが、コマンドラインで使う場合であればdisposeしなくも問題になることは少ないと思います。

python
1from sqlalchemy import create_engine
2import pandas as pd
3
4engine = create_engine('postgresql://user:passwd@host:5432/dbname')
5df = pd.read_sql(q, con=engine)