前提・実現したいこと
青空文庫にある小説を解析するために、文章の整形を行っています。
文章内の脚注を削除するために以下のコードを実行したところ、正しく削除することができませんでした。
該当のコード
Python
1with codecs.open(fname,'r', 'shift-jis', 'ignore') as f: 2 text = f.read() 3 text = text.replace('|', '') 4 text = re.sub('《\w+》', '', text) 5 text = re.sub('[#\w+]', '', text) 6 text = text.replace('\r', '').replace('\n', '') 7 text = re.sub('[、「」?]', '', text) 8 text = re.sub('(\w+)', '', text) 9 text = re.sub('[\w+]', '', text) 10 hoge = text.split('-------------------------------------------------------') 11 text = hoge[2] 12 text = text.replace('\u3000', '') 13 14with codecs.open(hoge[0] + '.txt', 'w') as ff: #作者名作品名.txt 15 for s in sentence: 16 ff.write(s + '\n')
削除されなかった部分
今でも××の海岸にズラリと軒を並べている※[#┐を全角大とした屋号を示す記号240-14]友とか○金とかいう網元へ船を漕ぎ付けた漁師が仕事をさしてくれと頼むかね……そうすると店の番頭か手代みたような奴が物蔭へ引っぱり込んで片手で投げるような真似をしながら遣るかと訊く 絶影島を中心に左右へ引きはえる山影岩角は宛然たる名画の屏風[#ルビのびょうぶは底本ではじょうぶ]だ
脚注が登場する上の2文から脚注の部分が削除されていませんでした。
試したこと
\wが英数字にマッチするので、日本語はだめかと思い\Wでも試してみましたが、うまくいきませんでした。他の処理についてはうまくいっているので、なぜこれだけがうまくいかないのか皆目見当がつきません。
プログラミングに不慣れなため、コード自体のおかしな点などはご容赦ください。
ツールのバージョン
OSはUbuntuの18.04
Pythonは3.7.0です
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2020/01/03 00:17