テキストファイル【test_text.txt】から【開催月】の一覧を「年」と「月」に分けて抜き出し、それぞれファイルに書き込みpandasで処理をしたいと考えています。
(該当コードでは和暦を西暦に変換する関数【seireki()】を組み込みながら書いています。)
【test_text.txt】
イベント名 〇〇祭り 開催地 東京都 開催月 平成 3 年 10 月 平成 4 年 1 月 平成 5 年 7 月 平成 8 年 10 月 備考 毎年10月の2週目の土曜日に開催 イベント名 〇〇パーティー 開催地 東京都 開催月 昭和 51 年 2 月 昭和 51 年 6 月 昭和 53 年 9 月 昭和 58 年 10 月 備考 . . .
【test_text.txt】には1000以上のイベントが同じように記入されており、抜き出したい【開催月】は必ず「開催月」の下に記されています。
myfile = open('test_text.txt', 'r', encoding='utf-8_sig') data = myfile.readlines() myfile.close() d_len = len(data) a = [] for i in range(d_len): element = data[i] element = element.rstrip() if(element=='開催月'): start_list = data[i+1].rstrip() #開催月の抜き出し start_list= start_list.replace(' ','') #空白を削除 start_seireki = re.findall(r'.+年', toshi_list) #開催月の開催年を西暦で抜き取る start_month = re.findall(r'[0-9]+月', toshi_list) #開催月の開催月を抜き取 for ss in start_seireki: ss = seireki(ss).replace('年','') #和暦を西暦に変換する関数seireki()を使用 a.append(ss) #print(a) #ここで【出力結果1】が返ってきます
【出力結果1】
['1991年'] ['1975年'] [] ['1989年'] ['1985年'] [] ['1879年'] ['1991年'] . . .
発生している問題
上記のコードを書くと【出力結果1】のように所々空のリスト[]になってしまいます。
空のリスト[]をNaNやNoneで埋めるにはどのようなコードを書けばよろしいでしょうか?
試したこと
どう調べていいかわからずつまづいてしまいました。
どなたかご教授よろしくお願いいたします。
補足情報(FW/ツールのバージョンなど)
windows
google colaboratory
ここにより詳細な情報を記載してください。