csvファイルを前から3列、後ろから2列といった形で取得したい

前提・実現したいこと

列数が一定出ないcsvファイルがあり、前から1,2,3列と後ろから1,2列だけを取得してデータベース入れたいです。
また、前から3列目には不要な文字が含まれており（”と[]),それを取り除きたいです。
対象のcsvファイルが1ファイル100万行で1000ファイル程度ある為、パフォーマンスが良い方法で行いたいです。

発生している問題

下記コードの方法で、1行ずつ列数を取得して列数別に処理しているのですが、20万行処理するのに1時間程度かかっています。単純にcsvファイルを読み込んでSQL Serverに格納するだけならば100万行で2分-3分で終わるので、そのくらいのパフォーマンスを出したいです。
###csvファイルサンプル

aaa,1445965775,["a"],1,0.0027
bbb,1445965775,["b","bb","bbb"],1,0.05075575
ccc,1445965775,["c","cc"],0,2.86008262

該当のソースコード

python
1ソースコード
2file_list = sorted(glob.glob(r'/ファイルパス/*.csv'))
3##カラム定義
4cols = ['txid', 'blocktime','addresses','n','value']
5##SQL Serverに入れる用データフレーム
6df_vout = pd.DataFrame(index=[], columns=cols)
7##tmp用データフレーム
8record =  pd.DataFrame(index=[], columns=cols)
9
10for filename in file_list:
11    ##SQL Serverに入れる用データフレーム
12    df_vout = pd.DataFrame(index=[], columns=cols)
13    ##tmp用データフレーム
14    record =  pd.DataFrame(index=[], columns=cols)
15    with open(filename) as f:
16        reader = csv.reader(f)
17        #下記rowにはリストが入る
18        #1行ずつ取り出し
19        for row in reader:
20            print(row_count)
21            #原則として要素数は5個。5個の場合はvalueだけfloatで変換して素直に入れる。
22            if len(row)==5:
23                #アドレス列は"[アドレス]”という形式で入るので、不要な[]"を空白に置換
24                row[2] = row[2].replace('[','')
25                row[2] = row[2].replace(']','')
26                row[2] = row[2].replace('"','')
27                #valueは指数表記で入ってくることがあるので、floatで数値に変換してあげる
28                record =pd.Series([row[0],row[1],row[2],row[3],float(row[4])],index=df_vout.columns)
29                df_vout =df_vout.append(record,ignore_index=True)
30            #6以上の場合はアドレスに2つ以上あるので、結合する必要があり。最悪結合しないで、最初のアドレスでOK
31            elif len(row)==6:
32                concati_address_6 = row[2]+row[3]
33                concati_address_6 = concati_address_6.replace('[','')
34                concati_address_6 = concati_address_6.replace(']','')
35                concati_address_6 = concati_address_6.replace('"','')
36                record = pd.Series([row[0],row[1],concati_address_6,row[4],float(row[5])], index=df_vout.columns)
37                df_vout = df_vout.append(record,ignore_index=True)
38
39 #ファイル単位でSQL Serverに書き込み
40        df_vout.columns =  ['txid', 'blocktime','addresses','n','value']
41        df_vout.to_sql("テーブル名", engine, if_exists='append', index=False, chunksize=8)

hayataka2049

2019/02/09 06:51

前から3行、後ろから2行では？

yostito

2019/02/09 07:00

コメントありがとうございます。サンプルの例ですと、下記のような形に整形したいので、前から3列、後ろから2列取り込みたいのです。 aaa,1445965775,a,1,0.0027 bbb,1445965775,b,1,0.05075575 ccc,1445965775,c,0,2.86008262

hayataka2049

2019/02/09 07:01

もしかして、a,b,c,d,e,fからa,b,c,e,fを取るということでしょうか。 bbb,1445965775,["b","bb","bbb"],1,0.05075575 みたいな例は何列になるとお考えですか？（途中の[]間のカンマの扱い）

yostito

2019/02/09 07:02

はい、そのように取りたいと思っています。上記例でカンマ区切りのファイルですと、7列になると考えています

行動規範の内容に同意します

回答2件

以下のように中間ファイルを介してデータを整形するのが遠回りのようで近道かと思います。

Python
1import os
2
3def conv_csv(inp_path):
4
5    tmp_path = inp_path + '.tmp'
6    with open(inp_path) as fin:
7        with open(tmp_path,'w') as fout:
8            for line in fin:
9                # ～,["a","aa"],～ -> ～,|"a","aa"|,～
10                line = line.replace('[','|').replace(']','|')
11                fout.write(line)
12
13    import csv
14    ret_path = inp_path + '.ret'
15    with open(tmp_path, newline='') as fin:
16        reader = csv.reader(fin, delimiter=',', quotechar='|')
17        with open(ret_path,'w', newline='') as fout:
18            writer = csv.writer(fout)
19            for row in reader:
20                # ３列目「"a","aa"」から「a」のみ抽出して連結しなおす
21                r2 = row[2].split(',')[0].strip('"')
22                writer.writerow([row[0],row[1],r2,row[3],row[4]])
23
24    os.remove(tmp_path)
25    return ret_path
26
27
28ret_path = conv_csv('inp.csv') # csvファイルサンプル
29
30import pandas as pd
31df = pd.read_csv(ret_path,header=None)
32os.remove(ret_path)
33print(df)
34"""
35     0           1  2  3         4
360  aaa  1445965775  a  1  0.002700
371  bbb  1445965775  b  1  0.050756
382  ccc  1445965775  c  0  2.860083
39"""