回答編集履歴

バルクインサートについて追記

2020/07/14 20:55

投稿

スコア1615

answer CHANGED Viewed

@@ -38,4 +38,10 @@
                 rows = []
         if len(rows) > 0:
             cur.executemany(sql, rows)
-```
+```
+[追記]
+どうやらpsycopg2からバルクインサートが使えるようなので参考URLを紹介。cur.executemany(sql, rows)をextras.execute_values(cur, sql, rows)にするだけで良いらしい。
+- [1000万件のINSERTを映画1本分ぐらい時間節約できた話](https://datumstudio.jp/blog/postgresql%E3%81%A7insert%E9%80%9F%E5%BA%A6%E6%AF%94%E8%BC%83)
+- [Postgresqlでバルクインサートする方法](https://qiita.com/K-1/items/f37654f5355f593c815f)

引数のミスを修正

2020/07/14 20:55

投稿

スコア1615

answer CHANGED Viewed

@@ -37,5 +37,5 @@
                 cur.executemany(sql, rows)
                 rows = []
         if len(rows) > 0:
-            cur.executemany(rows)
+            cur.executemany(sql, rows)
 ```

Prepared Statementを追記

2020/07/14 20:40

投稿

スコア1615

answer CHANGED Viewed

@@ -18,4 +18,24 @@
             if i % commit_limit == (commit_limit - 1):
                 cur.commit()
         cur.commit()
+```
+あるいはPrepared statementを使って
+```python
+import csv
+import psycopg2
+sql = "INSERT INTO [テーブル] VALUES (%s, %s, %s)"  # %sはカラムの数だけ書く
+commit_limit = 1000  # 1000回に1回コミットする
+with psycopg2.connect("****") as conn, open('[CSVファイル]', 'r') as f:
+    with conn.cursor() as cur:
+        reader = csv.reader(f)
+        next(reader)  # ヘッダ行をスキップ
+        rows = []
+        for i, row in enumerate(reader):
+            rows.append(row)
+            if i % commit_limit == (commit_limit - 1):
+                cur.executemany(sql, rows)
+                rows = []
+        if len(rows) > 0:
+            cur.executemany(rows)
 ```

内容を正確にした

2020/07/14 20:39

投稿

スコア1615

answer CHANGED Viewed

@@ -1,4 +1,4 @@
-`\copy`はCOPYコマンドと異なり`psql`のコマンドですので、execute()で流し込むSQLとして使用することは出来ません。メモリ確保をしたくないということですので恐らく比較的ファイルサイズの大きなCSVファイルだと想像します。そのような場合、経験上INSERT文よりもCOPYコマンドのほうが(圧倒的に)高速ですので、特段の理由がない限りpsqlを使うことをお勧めします。
+`\copy`はCOPYコマンドと異なり`psql`のコマンドですので、execute()で流し込むSQLとして使用することは出来ません。メモリ確保をしたくないということですので恐らく比較的ファイルサイズの大きなCSVファイルだと想像します。そのような場合、経験上INSERT文よりもCOPYコマンドのほうが(圧倒的に)高速ですので、特段の理由がない限りpsqlからCOPYコマンドを使うことをお勧めします。
 遅くても構わないのでPythonで行いたいということであれば(copy_fromを使わない方法としては)、INSERT文を組み立てることになります。一行ずつだと遅いのでcommitはある程度まとまってからcommitするほうが良いです。

typoの修正

2020/07/14 20:21

投稿

スコア1615

answer CHANGED Viewed

@@ -1,4 +1,4 @@
-`\copy`はCOPYコマンドと異なり`psql`のコマンドですので、execute()で流し込めむSQLとして使用することは出来ません。メモリ確保をしたくないということですので恐らく比較的ファイルサイズの大きなCSVファイルだと想像します。そのような場合、経験上INSERT文よりもCOPYコマンドのほうが(圧倒的に)高速ですので、特段の理由がない限りpsqlを使うことをお勧めします。
+`\copy`はCOPYコマンドと異なり`psql`のコマンドですので、execute()で流し込むSQLとして使用することは出来ません。メモリ確保をしたくないということですので恐らく比較的ファイルサイズの大きなCSVファイルだと想像します。そのような場合、経験上INSERT文よりもCOPYコマンドのほうが(圧倒的に)高速ですので、特段の理由がない限りpsqlを使うことをお勧めします。
 遅くても構わないのでPythonで行いたいということであれば(copy_fromを使わない方法としては)、INSERT文を組み立てることになります。一行ずつだと遅いのでcommitはある程度まとまってからcommitするほうが良いです。