シェープファイルの属性をaccessに高速で登録したい。

Question

### 実現したいこと

### 調べたこと

https://teratail.com/questions/u88jge5g5b2qdx
https://qiita.com/ku_a_i/items/77f4680651e628517db9
https://stackoverflow.com/questions/69451791/error-using-to-sql-method-multi-with-ms-access
https://github.com/gordthompson/sqlalchemy-access/wiki/%5Bpandas%5D-faster-alternative-to-.to_sql()-for-large-uploads

つまり
https://teratail.com/questions/326746
の質問文で記載したようにGetFieldDefnから型を取得して対応するAccessの型を判定し
それにより"ADODB.Connection"使ってテーブルを作成して
そこにinsert-intoで登録すれば良い。という事になるのでしょうか。

こんな方法しかないのでしょうか。
他に良い方法等ありましたら教えて下さい。

とりあえず、to_sqlで出力する例1とADOつかってRecorsSetでappendする例2と
リンク先に提示してあったto_excelからのinsert intoの例3を比較してみました。

コードは以下の通りです。
```python
import pandas as pd
from urllib.parse import quote_plus
from sqlalchemy import create_engine
from sqlalchemy import types
import time
import os
import math

def alchemy_engine(db_path):
    con_str = "DRIVER=" + \
              "{Microsoft Access Driver (*.mdb, *.accdb)};" + \
               f"DBQ={db_path};"
    con_str = quote_plus(con_str)
    engine = create_engine(
        f"access+pyodbc:///?odbc_connect={con_str}",
        echo=True)
 
    return engine

path_access=r"D:\work\study\python\pandas_access\orderby.accdb"
engine = alchemy_engine(path_access)

data_a=[]
data_b=[]
data_c=[]
data_d=[]
data_e=[]
for i in range(30000):
    data_a.append(i)
    data_b.append(float(i))
    data_c.append(str(i))
    data_d.append(None)
    data_e.append(str(i))

df=pd.DataFrame({'A':data_a,'B':data_b,'C':data_c,'D':data_d,'E':data_e})
dtypes={'A':types.Integer,'B':types.Float,'C':types.String(10),'D':types.DateTime,'E':types.Text}

start_time = time.perf_counter()
df.to_sql('testtable', engine, if_exists='replace', index=False,dtype=dtypes)
end_time = time.perf_counter()
 
elapsed_time = end_time - start_time
print(elapsed_time)

import win32com.client

def insert_to_access(path,df,table,dtypes):
    dic_data_type = {
        types.DateTime:"DATETIME",
        types.Float:"DOUBLE",
        types.Integer:"INTEGER",
        types.Text: "LONGCHAR",
        types.String:"VARCHAR",
    }
    conn = win32com.client.Dispatch(r'ADODB.Connection')

DSN ='Provider=Microsoft.ACE.OLEDB.12.0;Data Source=' + path + ';'

conn.Open(DSN)
            
    sql="DROP TABLE [" + table + "]"
    try:
        conn.Execute(sql)
    except:
        pass

sql="CREATE TABLE [" + table + "] ("
    for column in df.columns:
        if isinstance(dtypes[column], types.String):
           sql += column + ' ' +  dic_data_type[types.String]
           sql += '(' + str(dtypes[column].length) + ')'
        else:
           sql += column + ' ' +  dic_data_type[dtypes[column]]
        sql += ','
    sql=sql[:-1]+ ')'

conn.Execute(sql)
    
    rs = win32com.client.Dispatch(r'ADODB.Recordset')
    rs.CursorLocation = 3 # adUseClient
    rs.LockType = 4 # adLockBatchOptimistic 
    rs.Properties.Item("Append-Only Rowset").Value= True
    rs.Open("SELECT * FROM [" + table + "]",conn)

l=len(df.columns)
    count=0
    for row in df.itertuples(name=None):
        count+=1
        rs.AddNew()
        for i in range(l):
            if not row[i+1] is None:
                if isinstance(row[i+1],float) or isinstance(row[i+1],int):
                    if not math.isnan(row[i+1]):
                        rs.Fields.Item(i).Value=row[i+1]
                else:    
                    rs.Fields.Item(i).Value=row[i+1]
        if count % 5000 ==0:  
            rs.UpdateBatch()
    if count % 5000 != 0:  
        rs.UpdateBatch()
    rs.Close()
    conn.Close()

def insert_to_access2(path,df,table,dtypes):
    dic_data_type = {
        types.DateTime:"DATETIME",
        types.Float:"DOUBLE",
        types.Integer:"INTEGER",
        types.Text: "LONGCHAR",
        types.String:"VARCHAR",
    }
    conn = win32com.client.Dispatch(r'ADODB.Connection')
    DSN ='Provider=Microsoft.ACE.OLEDB.12.0;Data Source=' + path + ';'
    conn.Open(DSN)
            
    sql="DROP TABLE [" + table + "]"
    try:
        conn.Execute(sql)
    except:
        pass

sql="CREATE TABLE [" + table + "] ("
    for column in df.columns:
        if isinstance(dtypes[column], types.String):
           sql += column + ' ' +  dic_data_type[types.String]
           sql += '(' + str(dtypes[column].length) + ')'
        else:
           sql += column + ' ' +  dic_data_type[dtypes[column]]
        sql += ','
    sql=sql[:-1]+ ')'

conn.Execute(sql)
    
    xlsx_path = os.path.splitext(path)[0] + '.xlsx'
    df.to_excel(xlsx_path, index=False)
    sql = f"""\
    INSERT INTO [{table}]
    SELECT * FROM [Sheet1$] IN "{xlsx_path}" 'Excel 12.0 Macro;HDR=Yes'
    """

conn.Execute(sql)
    os.remove(xlsx_path)
    conn.Close()

start_time = time.perf_counter()
insert_to_access(path_access,df,'testtable2',dtypes)
end_time = time.perf_counter() 
elapsed_time = end_time - start_time
print(elapsed_time)

start_time = time.perf_counter()
insert_to_access2(path_access,df,'testtable3',dtypes)
end_time = time.perf_counter() 
elapsed_time = end_time - start_time
print(elapsed_time)

```
結果は
例1が22秒
例2が35秒(やってみたがto_sqlより遅いとは…何かまずい所があるのかな？)
例3が6秒
でした。

やはり、リンク先の内容の通りということなのでしょうか。
データの量を増やしてどう変わるかについては、また検証してみます。

あとシェープファイルからということでしたので
シェープファイルからの登録の例として書いてみたコードも記載しておきます。

```python
import osgeo.ogr as ogr
from sqlalchemy.types import Float,Integer,String,Text,DateTime

path_read_shp=r"D:\study\Python\AAAA.shp"

driver = ogr.GetDriverByName("ESRI Shapefile")
data_source = driver.Open(path_read_shp)
layer = data_source.GetLayer(0)
layer_defn = layer.GetLayerDefn()
dtypes={}
for column in range(layer_defn.GetFieldCount()):
    field_defn=layer_defn.GetFieldDefn(column)
    field_name=field_defn.GetName()    
    if field_defn.GetType() == ogr.OFTInteger:
        dtypes[field_name]=Integer
    elif field_defn.GetType() == ogr.OFTInteger64:
        dtypes[field_name]=Integer
    elif field_defn.GetType() == ogr.OFTReal:
        dtypes[field_name]=Float
    elif field_defn.GetType() == ogr.OFTString:
        if field_defn.GetWidth()<=255:
            dtypes[field_name]=String(field_defn.GetWidth())
        else:
            dtypes[field_name]=Text
    elif field_defn.GetType() == ogr.OFTDate :
        dtypes[field_name]=DateTime

data_source.Destroy()

import pandas as pd
import geopandas as gpd
from urllib.parse import quote_plus
from sqlalchemy import create_engine

# sqlalchemyのengineを作成
def alchemy_engine(db_path):
    con_str = "DRIVER=" + \
              "{Microsoft Access Driver (*.mdb, *.accdb)};" + \
               f"DBQ={db_path};"
    con_str = quote_plus(con_str)
    engine = create_engine(
        f"access+pyodbc:///?odbc_connect={con_str}",
        echo=True)
 
    return engine

engine = alchemy_engine(r"D:\study\Python\sss.accdb")

gdf=gpd.read_file(path_read_shp,encode='utf-8')
df=pd.DataFrame(gdf.drop('geometry',axis=1))
df.to_sql('shape_test', engine, if_exists='replace', index=False)

```

Accepted Answer

Accessの機能でDBFファイルを直接インポートできました。

dbfは、dBase4形式のようなので、
外部データ＞新しいデータソース＞dBASEファイル
をすればよさそうでした。

https://hayapi.hatenablog.jp/entry/2014/06/26/201624

DoCmd.TransferDatabase acImport, "dBase IV", Path, acTable, ファイルパス, "テーブル名")

Answer

ESRI Shapefileのことを言っているのだとして。

ShapefileをPostgreSQL(PostGIS)にインポート・エクスポートするツールがあるので、
一旦PostgreSQLのテーブルにしてから、
Accessにでも入れ直してみるとか。
shp2pgsql について調べてみてください。

実現したいこと

調べたこと

関連した質問