Rubyの正規表現で?=という表現

Rubyでプログラミングの問題を解いていますが、解答をみて、さらに公式ドキュメントを見ても理解ができなかったので質問させていただきます。

問題は

Ruby
1
2search_substr( fullText, searchText, allowOverlap = true )
3

というメソッドの中身を作る必要があり、searchTextの文字列がfullTextの中で何度繰り返されているかを算出します。
また、allowOverlapがtrueなら重複もカウントし、falseなら重複をカウントしません。

例としては

Ruby
1
2search_substr('aa_bb_cc_dd_bb_e', 'bb') #bbが2回出現しているので2を返す
3search_substr('aaabbbcccc', 'bbb') # 1を返す
4search_substr( 'aaa', 'aa' ) # 2を返す
5search_substr( 'aaa', '' ) # 0を返す
6search_substr( 'aaa', 'aa', false ) # 1を返す
7

これに対して、解答が

Ruby
1def search_substr( fullText, searchText, allowOverlap = true )
2  if searchText == ''
3    0
4  else
5    fullText.scan(allowOverlap ? Regexp.new("(?=(#{searchText}))") : searchText).size
6  end
7end

となっておりました。
allowOverlapがtrueの時の**Regexp.new("(?=(#{searchText}))")**について、
**?=**がどのような理由で記述されているのかがわかりません。

https://docs.ruby-lang.org/ja/latest/doc/spec=2fregexp.htmlにて検索したら(?=pat) 肯定先読み(positive lookahead)というものが出てきたのですが、なせこれで重複をカウントできているのかが理解できません。

特にRegexp.new("(?=(#{searchText}))")にてsearch_substr( 'aaa', 'aa' )が2を返せる理由について伺いたいです。

よろしくお願いいたします。

Orlofsky

2019/07/09 14:20

https://teratail.com/help#about-markdown の [リンク] の使い方が間違っています。

行動規範の内容に同意します

回答2件

ベストアンサー

Ruby
1# //は空文字にマッチする
2p 'abc'.scan(//) # ⇒ ["", "", "", ""]
3# (空文字) a (空文字) b (空文字) c (空文字) 
4
5# /(?=a)/は直後に 'a' がある空文字にマッチする
6p 'abc'.scan(/(?=a)/)  # ⇒ [""]
7# (空文字) a 空文字 b 空文字 c 空文字 
8
9# /(?=aba)/は直後に 'aba' がある空文字にマッチする
10p 'ababa'.scan(/(?=aba)/) # ⇒ ["", ""]
11# (空文字) a 空文字 b (空文字) a 空文字 b 空文字 a
12
13
14# ※ (空文字) ・・・ マッチする空文字

投稿2019/07/09 13:17

退会済みユーザー

総合スコア0

macaroni323

2019/07/09 14:07

直感的でわかりやすい説明をいただき、ありがとうございます。

行動規範の内容に同意します

正規表現が/aa/の場合は、一度マッチした次の検索は、マッチした文字列の次から検索なので、"aaa"に対して、一度目のマッチが最初の2つのaで、二度目の検索が3文字目のaから始まります。で、マッチしない。

正規表現が/(?=(aa))/の場合、これは先読みだけで、マッチする文字列が空です。つまり、「そのあとがaaである空文字列」にマッチします。
それは、対象が"aaa"だと、一度目は「1つ目のaの前」にマッチして、二度目の検索はその次の空白文字である「1つ目のaと2つ目のaの間」にマッチします。三度目はマッチしません。

あと、Regexp.new("(?=(#{searchText}))")は簡潔に/(?=#{searchText})/で良いはずです。
検索するsearchTextが「正規表現」でなく「文字列」なのなら、
/(?=#{Regexp.quote(searchText)}/と.等の特殊文字をクォートする必要がありますね。

投稿2019/07/09 13:09