質問編集履歴

感想追記とか

2022/04/18 23:45

投稿

xail2222

スコア1525

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -18,8 +18,8 @@
 こんな方法しかないのでしょうか。
 他に良い方法等ありましたら教えて下さい。
-とりあえず、to_sqlで出力する例とADOつかってRecorsSetでappendする例と
+とりあえず、to_sqlで出力する例1とADOつかってRecorsSetでappendする例2と
-リンク先に提示してあったto_excelからのinsert intoの例を比較してみました。
+リンク先に提示してあったto_excelからのinsert intoの例3を比較してみました。
 コードは以下の通りです。
 ```python
@@ -184,9 +184,9 @@
 ```
 結果は
-1が22秒
+例1が22秒
-2が35秒
+例2が35秒(やってみたがto_sqlより遅いとは…何かまずい所があるのかな？)
-3が6秒
+例3が6秒
 でした。
 やはり、リンク先の内容の通りということなのでしょうか。

Access Python pandas

余計なコードカット

2022/04/18 22:57

投稿

xail2222

スコア1525

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -242,9 +242,6 @@
     return engine
-#import os
-#os.environ['NLS_LANG'] = "utf-8"
 engine = alchemy_engine(r"D:\study\Python\sss.accdb")
 gdf=gpd.read_file(path_read_shp,encode='utf-8')

Access Python pandas

誤記修正

2022/04/18 22:53

投稿

xail2222

スコア1525

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -249,7 +249,6 @@
 gdf=gpd.read_file(path_read_shp,encode='utf-8')
 df=pd.DataFrame(gdf.drop('geometry',axis=1))
-df=df[:3]
 df.to_sql('shape_test', engine, if_exists='replace', index=False)
 ```

Access Python pandas

シェープファイルからの例を記載

2022/04/18 22:52

投稿

xail2222

スコア1525

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -190,4 +190,66 @@
 でした。
 やはり、リンク先の内容の通りということなのでしょうか。
-データの量を増やしてどう変わるかについては、また検証してみます。
+データの量を増やしてどう変わるかについては、また検証してみます。
+あとシェープファイルからということでしたので
+シェープファイルからの登録の例として書いてみたコードも記載しておきます。
+```python
+import osgeo.ogr as ogr
+from sqlalchemy.types import Float,Integer,String,Text,DateTime
+path_read_shp=r"D:\study\Python\AAAA.shp"
+driver = ogr.GetDriverByName("ESRI Shapefile")
+data_source = driver.Open(path_read_shp)
+layer = data_source.GetLayer(0)
+layer_defn = layer.GetLayerDefn()
+dtypes={}
+for column in range(layer_defn.GetFieldCount()):
+    field_defn=layer_defn.GetFieldDefn(column)
+    field_name=field_defn.GetName()
+    if field_defn.GetType() == ogr.OFTInteger:
+        dtypes[field_name]=Integer
+    elif field_defn.GetType() == ogr.OFTInteger64:
+        dtypes[field_name]=Integer
+    elif field_defn.GetType() == ogr.OFTReal:
+        dtypes[field_name]=Float
+    elif field_defn.GetType() == ogr.OFTString:
+        if field_defn.GetWidth()<=255:
+            dtypes[field_name]=String(field_defn.GetWidth())
+        else:
+            dtypes[field_name]=Text
+    elif field_defn.GetType() == ogr.OFTDate :
+        dtypes[field_name]=DateTime
+data_source.Destroy()
+import pandas as pd
+import geopandas as gpd
+from urllib.parse import quote_plus
+from sqlalchemy import create_engine
+# sqlalchemyのengineを作成
+def alchemy_engine(db_path):
+    con_str = "DRIVER=" + \
+              "{Microsoft Access Driver (*.mdb, *.accdb)};" + \
+               f"DBQ={db_path};"
+    con_str = quote_plus(con_str)
+    engine = create_engine(
+        f"access+pyodbc:///?odbc_connect={con_str}",
+        echo=True)
+    return engine
+#import os
+#os.environ['NLS_LANG'] = "utf-8"
+engine = alchemy_engine(r"D:\study\Python\sss.accdb")
+gdf=gpd.read_file(path_read_shp,encode='utf-8')
+df=pd.DataFrame(gdf.drop('geometry',axis=1))
+df=df[:3]
+df.to_sql('shape_test', engine, if_exists='replace', index=False)
+```

Access Python pandas

サンプルコード追記

2022/04/18 22:38

投稿

xail2222

スコア1525

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -18,5 +18,176 @@
 こんな方法しかないのでしょうか。
 他に良い方法等ありましたら教えて下さい。
+とりあえず、to_sqlで出力する例とADOつかってRecorsSetでappendする例と
+リンク先に提示してあったto_excelからのinsert intoの例を比較してみました。
+コードは以下の通りです。
+```python
+import pandas as pd
+from urllib.parse import quote_plus
+from sqlalchemy import create_engine
+from sqlalchemy import types
+import time
+import os
+import math
+def alchemy_engine(db_path):
+    con_str = "DRIVER=" + \
+              "{Microsoft Access Driver (*.mdb, *.accdb)};" + \
+               f"DBQ={db_path};"
+    con_str = quote_plus(con_str)
+    engine = create_engine(
+        f"access+pyodbc:///?odbc_connect={con_str}",
+        echo=True)
+    return engine
+path_access=r"D:\work\study\python\pandas_access\orderby.accdb"
+engine = alchemy_engine(path_access)
+data_a=[]
+data_b=[]
+data_c=[]
+data_d=[]
+data_e=[]
+for i in range(30000):
+    data_a.append(i)
+    data_b.append(float(i))
+    data_c.append(str(i))
+    data_d.append(None)
+    data_e.append(str(i))
+df=pd.DataFrame({'A':data_a,'B':data_b,'C':data_c,'D':data_d,'E':data_e})
+dtypes={'A':types.Integer,'B':types.Float,'C':types.String(10),'D':types.DateTime,'E':types.Text}
+start_time = time.perf_counter()
+df.to_sql('testtable', engine, if_exists='replace', index=False,dtype=dtypes)
+end_time = time.perf_counter()
+elapsed_time = end_time - start_time
+print(elapsed_time)
+import win32com.client
+def insert_to_access(path,df,table,dtypes):
+    dic_data_type = {
+        types.DateTime:"DATETIME",
+        types.Float:"DOUBLE",
+        types.Integer:"INTEGER",
+        types.Text: "LONGCHAR",
+        types.String:"VARCHAR",
+    }
+    conn = win32com.client.Dispatch(r'ADODB.Connection')
+    DSN ='Provider=Microsoft.ACE.OLEDB.12.0;Data Source=' + path + ';'
+    conn.Open(DSN)
+    sql="DROP TABLE [" + table + "]"
+    try:
+        conn.Execute(sql)
+    except:
+        pass
+    sql="CREATE TABLE [" + table + "] ("
+    for column in df.columns:
+        if isinstance(dtypes[column], types.String):
+           sql += column + ' ' +  dic_data_type[types.String]
+           sql += '(' + str(dtypes[column].length) + ')'
+        else:
+           sql += column + ' ' +  dic_data_type[dtypes[column]]
+        sql += ','
+    sql=sql[:-1]+ ')'
+    conn.Execute(sql)
+    rs = win32com.client.Dispatch(r'ADODB.Recordset')
+    rs.CursorLocation = 3 # adUseClient
+    rs.LockType = 4 # adLockBatchOptimistic
+    rs.Properties.Item("Append-Only Rowset").Value= True
+    rs.Open("SELECT * FROM [" + table + "]",conn)
+    l=len(df.columns)
+    count=0
+    for row in df.itertuples(name=None):
+        count+=1
+        rs.AddNew()
+        for i in range(l):
+            if not row[i+1] is None:
+                if isinstance(row[i+1],float) or isinstance(row[i+1],int):
+                    if not math.isnan(row[i+1]):
+                        rs.Fields.Item(i).Value=row[i+1]
+                else:
+                    rs.Fields.Item(i).Value=row[i+1]
+        if count % 5000 ==0:
+            rs.UpdateBatch()
+    if count % 5000 != 0:
+        rs.UpdateBatch()
+    rs.Close()
+    conn.Close()
+def insert_to_access2(path,df,table,dtypes):
+    dic_data_type = {
+        types.DateTime:"DATETIME",
+        types.Float:"DOUBLE",
+        types.Integer:"INTEGER",
+        types.Text: "LONGCHAR",
+        types.String:"VARCHAR",
+    }
+    conn = win32com.client.Dispatch(r'ADODB.Connection')
+    DSN ='Provider=Microsoft.ACE.OLEDB.12.0;Data Source=' + path + ';'
+    conn.Open(DSN)
+    sql="DROP TABLE [" + table + "]"
+    try:
+        conn.Execute(sql)
+    except:
+        pass
+    sql="CREATE TABLE [" + table + "] ("
+    for column in df.columns:
+        if isinstance(dtypes[column], types.String):
+           sql += column + ' ' +  dic_data_type[types.String]
+           sql += '(' + str(dtypes[column].length) + ')'
+        else:
+           sql += column + ' ' +  dic_data_type[dtypes[column]]
+        sql += ','
+    sql=sql[:-1]+ ')'
+    conn.Execute(sql)
+    xlsx_path = os.path.splitext(path)[0] + '.xlsx'
+    df.to_excel(xlsx_path, index=False)
+    sql = f"""\
+    INSERT INTO [{table}]
+    SELECT * FROM [Sheet1$] IN "{xlsx_path}" 'Excel 12.0 Macro;HDR=Yes'
+    """
+    conn.Execute(sql)
+    os.remove(xlsx_path)
+    conn.Close()
+start_time = time.perf_counter()
+insert_to_access(path_access,df,'testtable2',dtypes)
+end_time = time.perf_counter()
+elapsed_time = end_time - start_time
+print(elapsed_time)
+start_time = time.perf_counter()
+insert_to_access2(path_access,df,'testtable3',dtypes)
+end_time = time.perf_counter()
+elapsed_time = end_time - start_time
+print(elapsed_time)
+```
+結果は
+1が22秒
+2が35秒
+3が6秒
+でした。
+やはり、リンク先の内容の通りということなのでしょうか。
+データの量を増やしてどう変わるかについては、また検証してみます。

Access Python pandas