pythonにおいて、テキストファイルからリストを作成する時間を短縮したい

やりたいこと

ファイルからテキストを読んで各1行を複数要素に分割しリストを作成しているが
処理時間の短縮を図りたい。

　　
Textファイルの内容 (実際の1行はもっと長く数万行ある）
1000000000 11111 2222233333
2000000000 22222 3333344444

求めたいリスト
[[[1000000000],[11111],[22222],[33333]],[[2000000000],[22222],[33333],[44444]]]

該当のソースコード

    with open(fname) as f:
        data = f.readlines()
    data_list =[]
    for str in data:
        d = [str[1:11].strip(),str[11:19].strip(),str[19:29].strip(),str[29:34].strip()]
        data_list += d

meg_

2020/07/26 15:46

作成したリストをその後どう使われるのか分かりませんが、pandasの使用を検討されてはいかがでしょうか？

行動規範の内容に同意します

回答3件

ベストアンサー

Pandasで加工する例です。数万行程度なら時間はほぼかからないと思います。

コメントをうけて

固定長フォーマットであればpandas.read_fwfを使うと一発で読めます。

Python
1import pandas as pd
2
3# テストデータ
4from io import StringIO
5s = """1000000000111112222233333
62000000000222223333344444"""
7df = pd.read_fwf( StringIO(s), header=None, widths=[10,5,5,5])
8data_list = df.values.tolist()
9print(data_list)
10# [[1000000000, 11111, 22222, 33333], [2000000000, 22222, 33333, 44444]]

以前の回答

Python
1import pandas as pd
2
3# テストデータ
4from io import StringIO
5s = """1000000000\t11111\t2222233333
62000000000\t22222\t3333344444"""
7df = pd.read_csv( StringIO(s), header=None, delimiter='\t', dtype=str)
8
9df[3] = df[2].str[5:]
10df[2] = df[2].str[:5]
11data_list = df.values.astype(int).tolist()
12print(data_list)
13# [[1000000000, 11111, 22222, 33333], [2000000000, 22222, 33333, 44444]]

投稿2020/07/26 22:41

編集2020/07/27 09:06

8524ba23

総合スコア38341

f-ym

2020/07/27 08:54

回答ありがとうございます。質問が分かりにくかったようで申し訳ありません。与えるTEXTファイルは、 '1000000000 11111 2222233333\n’ ’2000000000 22222 3333344444\n’ 　　　　　　・　　　　　　・各行10桁,8桁,10桁,5桁の長さでデータが入っており、区切り文字は入っていません。

8524ba23

2020/07/27 09:01 編集

提示例と説明に相違があるように思えます。各行は「1000000000111112222233333」で「10桁5桁10桁」ではないでしょうか？ようは固定長区切りフォーマットということでしょうか？

f-ym

2020/07/28 13:16

再度の回答ありがとうございます。ご指摘の通り固定長区切りフォーマットですね。 pandas.read_fwfを使用して大幅な処理時間の短縮が図れました。ありがとうございました。提示例は, スペースも数えて10桁,8桁,10桁,5桁で掲載したはずなのですが, 表示はスペースが1個しかないですね。すいませんでした。

行動規範の内容に同意します

python
1from io import StringIO
2
3fp = StringIO('''\
41000000000   11111     2222233333 
52000000000   22222     3333344444
6''')
7
8data_list = [*map(lambda l: [[s] for s in l.split()], fp)]
9print(data_list)

投稿2020/07/26 23:44

YouheiSakurai

総合スコア6142

回答例中の入力の準備はYouheiSakuraiさんと共通にさせて頂きました。

python
1from io import StringIO
2
3fp = StringIO('''\
41000000000   11111     2222233333 
52000000000   22222     3333344444
6''')
7
8def convert(string):
9    tmp = string.split()
10    return tmp[:2] + [tmp[2][:5],tmp[2][5:]]
11
12ans = [convert(s) for s in fp]
13print(ans)
14# [['1000000000', '11111', '22222', '33333'], ['2000000000', '22222', '33333', '44444']]