- 0 1D 0/0 1.090932
よく 副詞,一般,,,,,よく,ヨク,ヨク
- 1 2D 0/0 1.387358
ある 動詞,自立,,,五段・ラ行,基本形,ある,アル,アル
- 2 3D 1/2 0.784096
お話 名詞,サ変接続,,,,,お話,オハナシ,オハナシ
風刺 名詞,サ変接続,,,,,風刺,フウシ,フーシ
が 助詞,格助詞,一般,,,*,が,ガ,ガ
cabochaを用いて上記のようなデータを得た時、「」を含む行と「」を含む行の間を取得したいです。
python3
1import re 2number_puttern = r"\s{1}[0-9]+\s{1}" 3with open('result/amazon/kimetu_ama1_aft.txt','r') as f: 4 #文書を取得 5 lines = f.readlines() 6 lines_strip = [line.strip() for line in lines] 7 #文書中から評価視点を抽出 8 for i,w1 in enumerate(lines_strip): 9 if '名詞,形容動詞語幹' in w1: 10 #該当語のセンテンス番号を取得 11 prepre_sentence_number = re.findall(number_puttern,lines_strip[i-1]) 12 pre_sentence_number = re.findall(r"\d+",prepre_sentence_number[0]) 13 sentence_number = int(pre_sentence_number[0]) 14 #該当語にかかる名詞を検索 15 for k,w2 in enumerate(lines_strip): 16 if '{}D'.format(sentence_number) in w2: 17 pass
pass のところにfor j,w3 in lines_strip[k+1:????] みたいに書こうと思ったのですが、????の部分がどうしても思いつかなくて質問させていただきました。
プログラム自体は、'名詞,形容詞語幹'にかかっている語を抽出するものを目指しています。
初心者故に どうしてそんな非効率でわかりづらいコード書いてるんだ と思われるような出来だと思いますがどうか解決策を教えていただきたいです。
よろしくお願いします。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。