Python ディレクトリ内のテキストファイルに対して一括で処理をしたいです

Question

### 前提・実現したいこと Pythonで青空文庫から取得したデータを処理し、台詞のみを抜きだして別ファイルとして保存したいです。ディレクトリ内にダウンロードした小説のテキストデータをまとめているので、それらに対し処理を行いたいと考えています。ディレクトリ内の1ファイルを指定して実行すると処理できるのですが、下のソースコードで実行するとエラーを吐いてしまいます。 ### 発生している問題・エラーメッセージ ``` IndexError Traceback (most recent call last) in () 24 #text = text.replace('テキスト','text') 25 # ヘッダ部分の除去 ---> 26 text = re.split('\-{5,}',text)[2] 27 # フッタ部分の除去 28 text = re.split('底本：',text)[0] IndexError: list index out of range ``` ### 該当のソースコード ```Python import os import codecs import re data_dir_path = u"./aozorabunko_sinjisinkana" file_list = os.listdir(r'./aozorabunko_sinjisinkana') for file_name in file_list: root, ext = os.path.splitext(file_name) if ext == u'.txt': abs_name = data_dir_path + '/' + file_name f = codecs.open(abs_name, "r", "shift_jisx0213") text = f.read() f.close() # ヘッダ部分の除去 text = re.split('\-{5,}',text)[2] # フッタ部分の除去 text = re.split('底本：',text)[0] # | の除去 text = text.replace('|', '') # ルビの削除 text = re.sub('《.+?》', '', text) # 入力注の削除 text = re.sub('［＃.+?］', '',text) # 全角スペースの除去 text = re.sub(r'\u3000', '', text) # ｜(全角)の除去 text = text.replace('｜', '') # 台詞の連続をTabに変換 text = re.sub('」「', ' ', text) # 空行の削除 text = re.sub(' ', ' ', text) text = re.sub(' ', '', text) #「」で囲まれた文のみ抽出 text = re.findall('「.*?」', text) # リストを展開・改行区切りで出力(ディレクトリ内一括処理) list = text s = ' '.join(list) f_out = codecs.open(abs_name + 'out.txt', "w", "shift_jisx0213") print(s, file=f_out) f_out.close() ``` ### 環境 Python 3.6.6 Anaconda 4.5.11 Windows 8.1 Jupyter notebook 5.6.0

Accepted Answer

まず、現在行っている処理は各テキストに対する処理にはなっていません。ループの外で処理をしているため、最後にループされたテキストに対してのみ処理が動いています。

まずは`abs_name`を受け取り、一通り処理を行うような関数を作るのが良いかと思います。その関数をループの中で呼び出して使えば要求を満たせますし、コードも見やすくなります。

ヘッダの処理に失敗しているようですが、ヘッダのフォーマットがファイルによって異なるため、そのコードでは意図通り処理できないファイルがあるのではないでしょうか？

検討して対策を練る必要がありそうです。

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

環境

関連した質問