正規表現の否定先読みについて

Question

否定先読みについて困っております。実行環境はatomです。

![![イメージ説明](362fdf681161cb8f05473bbedd3fe498.jpeg)
#聞きたい事
・私の考えのどこが間違っているのか？

・プログラムは正規表現をどう理解してマッチ部分を判断しているのか、流れがしりたい。
（まず括弧内をひと固まりにする⇒左の塊から見ていく⇒マッチしたものが見つかった場合は正規表現の欄の左右に記号が無いかを見る⇒あった場合はその記号の意味を適用し先ほどのマッチした文字の条件をもう一度見る、のような）

汚くて申し訳ないのですが私の解釈はこうです。（私の考えの部分が間違っているはずです）
#現在の私の考え
###画像左
前方に「値段」という文字を含まない「値」という文字を検索する。

・２４行目２文字目の「値」はマッチすると思っていたがしていない
・２４行目４文字目の「値」は前方に「値段」という文字があるのでマッチしないと思っていたがしている
・「(?<!)値」という表記も試してみたが、atomでは使えないようだった

###画像右
後方に「値段」という文字を含まない「値」という文字を検索する。

・２４行目二文字目は、後方に「値段」という文字が来ている為マッチしないと思っていたらマッチしている

#参考にしたサイト
https://msdn.microsoft.com/ja-jp/library/cc392020.aspx
https://abicky.net/2010/05/30/135112/
http://uxmilk.jp/50674
http://d.hatena.ne.jp/satosystems/20100519/1274237784
他多数

##所感
サイトによって表現がバラバラだったり、実際試してみると思い通りいくときといかない時がある。
根本的に理解が足りてないと思うが上手くいかない度合いがすごいので、基本の所で単純な勘違いをしているかも・・・
正規表現は理解が足りていないと、バグを簡単に入れ込んでしまうと思うので使用が怖い・・・

##追記
吉川WEB様（http://yoshikawaweb.com/w/wp-content/uploads/regex-cheat-sheet.pdf）に記載されていたチートシートがとても分かりやすいのですが、以下の赤線部分はコンピューターがどのように解釈してこの結果になるのかも不明です。

![イメージ説明](cff511d249102ebd068c32fd2237c43c.jpeg)

##追記２（混乱再び）（画像を載せる為）

・`(?=hoge)`はhogeの左側の`位置`とマッチングする
・`(?<=hoge)`はhogeの右側の`位置`とマッチングする

![eの左とマッチング](1093863932b1e7a6d4e3e561d6058e1d.jpeg)
![イメージ説明](b8e11788fc4ef8e82adfe568427636e4.jpeg)

なるほど！`位置とマッチング`という考え方が抜けていたのか
という事は`(?!=hoge)`はhogeの左側以外の位置とマッチングするのかな？

![イメージ説明](98aa93c57cb1b8602ed4fef6dce297ab.jpeg)

orz...
ーーーーーーーーーーーーーー訂正ーーーーーーーーーー

![イメージ説明](ef58f24778e3bbb8f3e4efddeac60c9d.jpeg)

私の書き方が間違えておりました。`(?!e)`と否定先読みのアンカーだけで検索することで、`e`前の空白文字列以外が検索されました。
ーーーーーーーーーーーーーーーーーーーーーーーーーー



~~という流れを辿っています。位置とマッチングだと正規表現の書き方としてすごく分かりやすかったのでうれしかったのです残念です。~~

~~またこれでは、先読みと後読みという言葉の意味理解ができていないです。~~

###追記３

コメントでは表現が見えづらいのでこちらを使用させていただきます。
KSwordOfHaste様のコメントに対してです。

`(?![a-e])[b-f]` と `f` とのマッチングの様子を先読み後読みの表現が加わるように書いてみます。

１、検索文字列`(?![a-e])`と本文`ｆの左の位置`が比較される
２、検索文字列`(?![a-e])`は次に本文`[a-e]`が来る可能性があるため、本文`ｆの左の位置`をとりあえずキープしつつも次の本文の文字を読んでみる（これが先読みと言われる所以）
３、本文`f`が来た事により、検索文字列`(?![a-e])`と本文`ｆの左の位置`がマッチング
４、検索文字列`(?![a-e])[b-f]`のうち`(?![a-e])`がマッチングしたので、検索文字列`[b-f]`の検索に入る
５、本文`ｆの左の位置`はマッチングされたので次の検索比較される本文は`f`
６、検索文字列`[b-f]`は本文`f`と比較されマッチング
７、検索文字列`(?![a-e])[b-f]`がすべてマッチングする箇所が見つかったので、本文`f`（正確には{`ｆの左の位置`+`f`}）はマッチングした文字列となる。

８、次の比較対象を求め検索文字列`(?![a-e])`と本文`ｆの右の位置`が比較される
９、検索文字列`(?![a-e])`は次に本文`[a-e]`が来る可能性があるため、本文`ｆの右の位置`をとりあえずキープしつつも次の本文の文字を読んでみるが文字は無い
１０、検索文字列`(?![a-e])`はアンマッチングなので、本文を本文`ｆの右の位置`から一文字進めようとするが無い
１１、最後まで検索したので検索終了

この流れであってますかね？


###お礼


否定先読み正規表現の`マッチング`がよく分からなかったので質問したのですが、Atomの使用や入力ミスそのほか様々な要素が`アンマッチ`となってしまった為、コメント含め複雑化してしまったようです。

しかし、テスト用に正規化されているとはまったく言えない入力文字列の画像で始まる質問にも、親切に答えてくださる皆様と`マッチング`できた事をとても嬉しく思っております。

お後がよろしいかは置いておいて、また色々な事を考えるきっかけとなりました。
ありがとうございました。

（僕はこの時間お腹が減る事を`先読み`しキープしておいたお菓子を食べながら作業を進めたいと思います）

Accepted Answer

理解のポイントは，先読みがアンカーである，という事実です。

`^` や `$` といったアンカーは分かりますよね。先読みはアレの仲間です。

`^` は，行頭という位置に存在する空文字列（長さ 0 の文字列）を意味します。

だから，`^foo` は行頭にある `foo` だけにマッチするわけです。

`^foo` は `^` と `foo` の連接です。
（連接というのは `\d+` と `年` をくっつけた `\d+年` のように，二つのパターンをつなげたもの）

先読みもアンカーである以上，〈特定の条件を満たす位置に存在する空文字列〉を表します。

`R` が何らかの正規表現であるとして，肯定先読み `(?=R)` を考えましょう。
このアンカーは，〈`R` にマッチする文字列が直後に存在する，そんな位置にある空文字列〉です。

否定先読み `(?!R)` は，〈`R` にマッチする文字列が直後に存在しない，そんな位置にある空文字列〉です。

だから，`u32` という文字列に対し，

* `(?=\d)` で検索して `*` に置換すれば，`u*3*2` になるし，
* `(?!\d)` で検索して `*` に置換すれば，`*u32*` になります。

肯定版と否定版で位置が完全に相補的であることに注目してください。

残念なことに Atom 上でこの実験はうまくいかないので，ブラウザーのコンソールなどを使って，JavaScript で

```js
"u32".replace(/(?=\d)/g, "*")
"u32".replace(/(?!\d)/g, "*")
```

を試してみてください。

Atom でうまくいかないのは，正規表現エンジン自体の問題ではなく，空文字列にマッチする正規表現での検索・置換の動作がおかしいだけだと思います。

Atom でも，先読みを他のパターンと組み合わせて，長さ 1 以上の文字列を検索させるようにすれば期待どおりの動作となります。なので，先読み自体の理解は上記のとおりで大丈夫です。

上に挙げた，`u32` を置換する例が完全に理解できるなら，答えは出たも同然です。

`値値段値` というテキスト中で，`(?!値段)` にマッチする位置を `*` で示すと，`*値値*段*値*` となります。

そしてこの `*` の位置（にある空文字列）に続けて `値` が存在する，となると，第 1 字，第 4 字の「`値`」が該当します。

というわけで，正規表現エンジンの実装方法など考えなくてもよいのでした。


「追記２」で混乱されていますが，実は非常に正しい理解をなさっています。

追記２の最後の実験が期待どおりでないのは，書き方が間違っているからです。

`(?!e)` と書こうとして `(?!=e)` と書いてしまっているので，〈直後に `=e` が存在しない位置〉を検索しています。

Answer

正規表現には「文字」にマッチする表現と「位置」にマッチする表現があります。

先読みとか後読みとか言われているのは後者に当たります。文字マッチする表現を「修飾」するというのはちょっとずれているのではないかなと感じます。

これまでいろいろ見てきて私にとって一番すんなり理解できた解説webページのURLを貼っておきます。
https://abicky.net/2010/05/30/135112/

Answer

バグだと思います。
「(?!値段)値」は「値値段値」の三番目の「値」にマッチしてはいけないはずです。

Answer

正規表現は得意ではないのですが、よく使っているツールがあるので。
[https://regex101.com/](https://regex101.com/)

こちらのサイトで、左上のメニューから「Regex Debugger」を選択すると、挙動が追えます。

便利です。

![https://regex101.com/debugger](f751845b8f6c5260352bd92cab45dc54.png)

Answer

`(?!値段)値` > 24行目4文字目の「値」は**前方に「値段」という文字があるのでマッチしない**と思っていたがしている否定先読みの意味を少し勘違いしておられます。 ```text 値値段値 ^ここを調べているとき <----> <=この範囲に「値段」が存在しないという意味(A)ではない ____ <=この位置が「値段」でないことをチェックするという意味である (A)の意味にするなら次のように書きます (!?値段.+)値もう少し分かり易くするなら (!?値段.*.)値 ^ ここが否定先読みの次のパターンである「値」の位置にあたる部分 ______ この範囲が今チェックしようとしている位置の直前までの部分 ``` --- 追加３について比較の様子を「処理になぞらえて」理解するのもよいのですが、どちらかといえば宣言的に理解した方がよいというのが自分の考えです。何度も例を変更して申し訳ないですが・・・正規表現に含まれる連続したパターン..., A , B, ...がありBが先読みでも後読みでもないとして... ```text Aが先読みパターン: ...|x|x|x|x|x|... ＜＝照合対象の文字列 ^ Aを照合するまでの照合対象位置がここだとすると ^_ _ ... Aは^の位置から始まる部分文字列と照合する。 ^_ _ ... BはAと同じ位置から照合される (要するにAの照合によりBの照合位置は変わらない) Aが後読みパターン: ...|x|x|x|x|x|x|... ＜＝照合対象の文字列 ^ Aを照合するまでの照合対象位置がここだとすると ... _ _$ Aは$の位置で終わる部分文字列と照合する。 ^_ _ ... BはAの照合位置の次の位置から照合される (要するにAの照合によりBの照合位置は変わらない) Aが先読みでも後読みでもないパターン: ...|x|x|x|x|x|x|... ＜＝照合対象の文字列 ^ Aを照合するまでの照合対象位置がここだとすると ^_ ... _$ Aは^の位置から始まる部分文字列と照合する。 ^_ _ ... BはAの照合位置の末尾の位置から照合される ```

Answer

**下記内容には間違いがあります。間違った経緯はコメント欄を参照下さい。**

正規表現エンジンにより実装が異なります。実際には DFA(決定性有限オートマトン) と NFA(非決定性オートマトン) の違いにより結果が異なります。

DFA の場合、今見ている入力に対して次にやってくる遷移が確定されます。逆に NFA の場合、各々の入力に対して遷移は複数存在しています。

今回のケースであれば24行目の2文字目の「値」は、DFA の場合は24行目1文字目の「値」のマッチにより遷移を失ってしまった為、2文字目はマッチしなくなったという結果です。(文字がない、つまり先行しない)

逆に NFA の場合 `(?!値段)値` は先行する事が必須となる為、24文字目1文字目は先行するものがありませんのでマッチしません。ちなみに20行目の違いもそれです。しかし24行目2文字目にはパターンにマッチする事になります。

DFA や NFA をキーワードに検索されると見つかると思います。

関連した質問