質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

2回答

1136閲覧

正規表現が解読不可能です...

hood

総合スコア351

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2019/02/14 00:39

###正規表現が解読不可能です...

ある本で青空文庫のテキストを処理するのに、ルビと注釈を取り除くコードがありました。
コードがなにをしているのかは本で説明されいてわかるのですが、解釈がどうしてもできません。
以下のコードです。

python

1decoration = re.compile(r"([[^[]]*]))|(《[^《》]*》)|[|\n ]") 2

本によると青空文庫においてルビは《》
例:吾輩《わがはい》は猫である
注釈は[]
例:[#「言+墟のつくり」...]
などというふうになっているそうです。
上のコードはそれを取り除くものだと、説明がありました。

しかしなぜこれで取り除けるの?と疑問に思ってしまいます。
このサイトを見て、それぞれの()や|、^や*、[]の意味はわかったのですが、それを適応させようとするとわからなくなってしまいます。

とくに[[^[]]*]の部分。

[]という集合の中に、[]という集合があって、その中に[]という集合がある?その集合の文字も大きさが違う?
^[の部分が文字列の先頭だとはわかるが、]*の部分は]が連続すること?などなど...

少し丸投げのようでもうしわけないのですが、わからないままにするのも気持ち悪いです...
どなたかこんな僕にでもわかるように説明していただけないでしょうか?

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

[]という集合の中に、[]という集合があって、その中に[]という集合がある?その集合の文字も大きさが違う?

全角の[]ただの文字です。つまり、[[^[]]*]は、「という文字のあとに、[]以外の文字が0文字以上続いて、その後にが来る」ということです。

投稿2019/02/14 00:43

maisumakun

総合スコア145121

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

hood

2019/02/14 01:53

回答ありがとうございます! 非常に論理的なわかりやすい説明で、すっと理解ができました! 回答者さまの回答の論理を応用すると《》の部分もわかりました。 おかげで前に進むことができます!
guest

0

「半角文字」と「全角文字」は意味が違います。今後プログラミングをするなら憶えておきましょう。
正規表現の特殊文字は、すべて「半角」です。全角の[ ]は単なる普通の文字。

あと、文字クラス[~~]は「中に書かれたどれか一文字にマッチ」ですが、[^~~]は「中に書かれた文字以外の文字どれか一文字にマッチ」です。

投稿2019/02/14 00:45

otn

総合スコア84423

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

hood

2019/02/14 01:56

回答ありがとうございます! [^~~]の部分、サイトには説明されていなかったので、解説していただき助かりました! 半角や全角についても今後気を付けたいと思います。 今回はベストアンサーは早く回答していただいたかたにしたいとおもいますが、本当にありがとうございました!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問