###正規表現が解読不可能です...
ある本で青空文庫のテキストを処理するのに、ルビと注釈を取り除くコードがありました。
コードがなにをしているのかは本で説明されいてわかるのですが、解釈がどうしてもできません。
以下のコードです。
python
1decoration = re.compile(r"([[^[]]*]))|(《[^《》]*》)|[|\n ]") 2
本によると青空文庫においてルビは《》
例:吾輩《わがはい》は猫である
注釈は[]
例:[#「言+墟のつくり」...]
などというふうになっているそうです。
上のコードはそれを取り除くものだと、説明がありました。
しかしなぜこれで取り除けるの?と疑問に思ってしまいます。
このサイトを見て、それぞれの()や|、^や*、[]の意味はわかったのですが、それを適応させようとするとわからなくなってしまいます。
とくに[[^[]]*]の部分。
[]という集合の中に、[]という集合があって、その中に[]という集合がある?その集合の文字も大きさが違う?
^[の部分が文字列の先頭だとはわかるが、]*の部分は]が連続すること?などなど...
少し丸投げのようでもうしわけないのですが、わからないままにするのも気持ち悪いです...
どなたかこんな僕にでもわかるように説明していただけないでしょうか?

回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/02/14 01:53