質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
ファイル

ファイルとは、文字列に基づいた名前又はパスからアクセスすることができる、任意の情報のブロック又は情報を格納するためのリソースです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

3回答

1270閲覧

pythonにおいて、テキストファイルからリストを作成する時間を短縮したい

f-ym

総合スコア1

ファイル

ファイルとは、文字列に基づいた名前又はパスからアクセスすることができる、任意の情報のブロック又は情報を格納するためのリソースです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2020/07/26 15:33

やりたいこと

ファイルからテキストを読んで各1行を複数要素に分割しリストを作成しているが
処理時間の短縮を図りたい。

  
Textファイルの内容 (実際の1行はもっと長く数万行ある)
1000000000 11111 2222233333
2000000000 22222 3333344444

求めたいリスト
[[[1000000000],[11111],[22222],[33333]],[[2000000000],[22222],[33333],[44444]]]

該当のソースコード

with open(fname) as f: data = f.readlines() data_list =[] for str in data: d = [str[1:11].strip(),str[11:19].strip(),str[19:29].strip(),str[29:34].strip()] data_list += d

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

meg_

2020/07/26 15:46

作成したリストをその後どう使われるのか分かりませんが、pandasの使用を検討されてはいかがでしょうか?
guest

回答3

0

ベストアンサー

Pandasで加工する例です。数万行程度なら時間はほぼかからないと思います。

コメントをうけて

固定長フォーマットであればpandas.read_fwfを使うと一発で読めます。

Python

1import pandas as pd 2 3# テストデータ 4from io import StringIO 5s = """1000000000111112222233333 62000000000222223333344444""" 7df = pd.read_fwf( StringIO(s), header=None, widths=[10,5,5,5]) 8data_list = df.values.tolist() 9print(data_list) 10# [[1000000000, 11111, 22222, 33333], [2000000000, 22222, 33333, 44444]]

以前の回答

Python

1import pandas as pd 2 3# テストデータ 4from io import StringIO 5s = """1000000000\t11111\t2222233333 62000000000\t22222\t3333344444""" 7df = pd.read_csv( StringIO(s), header=None, delimiter='\t', dtype=str) 8 9df[3] = df[2].str[5:] 10df[2] = df[2].str[:5] 11data_list = df.values.astype(int).tolist() 12print(data_list) 13# [[1000000000, 11111, 22222, 33333], [2000000000, 22222, 33333, 44444]]

投稿2020/07/26 22:41

編集2020/07/27 09:06
can110

総合スコア38341

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

f-ym

2020/07/27 08:54

回答ありがとうございます。 質問が分かりにくかったようで申し訳ありません。 与えるTEXTファイルは、 '1000000000 11111 2222233333\n’ ’2000000000 22222 3333344444\n’       ・       ・ 各行10桁,8桁,10桁,5桁の長さでデータが入っており、 区切り文字は入っていません。
can110

2020/07/27 09:01 編集

提示例と説明に相違があるように思えます。 各行は「1000000000111112222233333」で「10桁5桁10桁」ではないでしょうか? ようは固定長区切りフォーマットということでしょうか?
f-ym

2020/07/28 13:16

再度の回答ありがとうございます。 ご指摘の通り固定長区切りフォーマットですね。 pandas.read_fwfを使用して大幅な処理時間の短縮が図れました。 ありがとうございました。 提示例は, スペースも数えて10桁,8桁,10桁,5桁で掲載したはずなのですが, 表示はスペースが1個しかないですね。すいませんでした。
guest

0

python

1from io import StringIO 2 3fp = StringIO('''\ 41000000000 11111 2222233333 52000000000 22222 3333344444 6''') 7 8data_list = [*map(lambda l: [[s] for s in l.split()], fp)] 9print(data_list)

投稿2020/07/26 23:44

YouheiSakurai

総合スコア6142

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

回答例中の入力の準備はYouheiSakuraiさんと共通にさせて頂きました。

python

1from io import StringIO 2 3fp = StringIO('''\ 41000000000 11111 2222233333 52000000000 22222 3333344444 6''') 7 8def convert(string): 9 tmp = string.split() 10 return tmp[:2] + [tmp[2][:5],tmp[2][5:]] 11 12ans = [convert(s) for s in fp] 13print(ans) 14# [['1000000000', '11111', '22222', '33333'], ['2000000000', '22222', '33333', '44444']]

投稿2020/07/27 05:20

tenkoh

総合スコア51

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

f-ym

2020/07/27 09:11

回答ありがとうございます。 質問が分かりにくかったようで申し訳ありません。 与えるTEXTファイルは、 '1000000000 11111 2222233333\n’ ’2000000000 22222 3333344444\n’       ・       ・ 各行10桁,8桁,10桁,5桁の長さでデータが入っており、 区切り文字は入っていません。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問