前提・実現したいこと
テキストファイル【test_text.txt】から【開催月】の一覧を「年」と「月」に分けて抜き出し、それぞれファイルに書き込みpandasで処理をしたいと考えています。
(該当コードでは和暦を西暦に変換する関数【seireki()】を組み込みながら書いています。)
【test_text.txt】
イベント名 〇〇祭り 開催地 東京都 開催月 平成 3 年 10 月 備考 毎年10月の2週目の土曜日に開催 イベント名 〇〇パーティー 開催地 東京都 開催月 昭和 51 年 2 月 備考 . . .
【test_text.txt】には1834のイベントが同じように記入されており、抜き出したい【開催月】は必ず「開催月」の下に記されています。
発生している問題
【開催月】の一覧を「年」と「月」に分けて抜き出すことには成功したのですが、返ってきた結果が【出力結果1】のように1834rowsなければいけないはずが、【出力結果2】のように1819rowsしか返ってきませんでした。
【出力結果1】
['1991年'] ['1975年'] ['1989年'] ['1985年'] . . . ['1991年'] 1834rows × 1columns
myfile = open('test_text.txt', 'r', encoding='utf-8_sig') data = myfile.readlines() myfile.close() d_len = len(data) a = [] for i in range(d_len): element = data[i] element = element.rstrip() if(element=='開催月'): start_list = data[i+1].rstrip() #開催月の抜き出し start_list= start_list.replace(' ','') #空白を削除 start_seireki = re.findall(r'.+年', toshi_list) #開催月の開催年を西暦で抜き取る start_month = re.findall(r'[0-9]+月', toshi_list) #開催月の開催月を抜き取る for ss in start_seireki: ss = seireki(ss).replace('年','') #和暦を西暦に変換する関数seireki()を使用 a.append(ss)
【出力結果2】
1991 1975 1989 1985 . . . 1991 1819rows × 1columns
この場合どういう問題が考えられるのか、また実際のデータ数より少なくなってしまった場合どのように対処すればいいのかご教授いただければ幸いです。
分かりにくい箇所があれご指摘いただければ修正いたします。
よろしくお願いいたします。
補足情報(FW/ツールのバージョンなど)
google colaboratory
windows
あなたの回答
tips
プレビュー