正規表現の`^`や`$`などにつきまして

Question

現在、とあるソースコードを読んで学習を行っているのですが、その中の正規表現を使用したコードにつきまして、理解が追いつかない状況におります。対象言語: javascript 対象ソースコード: [riot.js](https://github.com/muut/riotjs/blob/c72718075c19963f60d3b465b962579ab7f66793/compiler.js#L221) ```lang-＜javascript＞ var regex = /^<([\w\-]+)>([^\x00]*[\w\/}]>$)?([^\x00]*?)^<\/\1>/gim; src.replace(regex, function(a,b,c){ /*省略*/ }) ``` 問題のコードを一部抜粋させていただきました。コードについて補足させていただきます。上記のコードは独自シンタックスを含んだhtmlタグのマッチに使用されています。つまり、 ```lang-＜html＞

title

list

// javascript code var hoge = 'hoge'; ``` 仮に上記のような文字列だった場合に、それぞれの部分文字列には、 1つ目 {タグ名: something} ２つ目 {内のjavascriptを除いたhtml:

title

list

} 三つ目 {script: `var hoge = 'hoge';`} がマッチするようになっております。問題のコードがどのような処理を担っているのかは理解できたのですが、そこで使用されている正規表現が何故そのように記述されているのかが理解できません。下記に理解が足らない部分を列挙させていただきます。 - ２つ目と３つ目の部分文字列に`[^\x00]`が含まれていますが、具体的にはどのような文字を除くように指定されているのでしょうか？ - ２つ目の部分文字列の最後に`$`が含まれていますが、これは２つ目の部分文字列が文末に存在するかの判定という認識で良いのでしょうか、また、その場合にはその後の正規表現の判定は無視されるのでしょうか？ - 同様に後方参照の直前にある`^`は、文頭に後方参照が存在するという認識で良いのでしょうか？特に、後者の２点に悩まされています。上手く説明ができておらず、申し訳ございません。私は今まで`^`と`$`は`/^.*$/`のようにそれぞれ先端と末端(`[^]`は除く)でしか使用していなかったために、困惑しております。恐らく`g`と`m`のフラグが使用されていることに関係があるのではと考えているのですが、糸口が見つけられずにいます。是非皆様のお力をお借りできればと思います。よろしくお願いいたします。 binzo

Accepted Answer

ご回答をいただいた皆様にお礼を申し上げます。皆様のご回答を参考に再度調べなおしてみたところ、納得のいく解決にたどり着くことが出来ました。皆様のご回答はどれも参考になり、それぞれのご意見の複合により私が求めていた解決の糸口を見つけることができたため、どなたかのご回答をベストアンサーとするのではなく、勝手ではございますが自己解決という形で質問を閉じさせていただきたいと思います。以下にどのような形で自己解決に至ったのかの説明をさせていただきます。まず、`^`,`$`ですが、皆様のおっしゃるようにmフラグの場合には、それぞれ直後、直前にマッチするようです。今回の正規表現では`^`が後方参照の前にも指定されていたため、パターン中で複数の`^`が存在することにより、文字列の先頭が２つ？と困惑してしまいましたが、皆様により理解することができました。つまり、 `/^[^\x00]*?^/gim` はさきほどのようなhtmlを文字列で表現した場合でいうところの ```lang-＜html＞

hoge

文字列では

hoge

``` にマッチし、 ```lang-＜html＞

hoge

foo 文字列では

hoge

foo ``` にはマッチしないということがわかりました。 riot.jsのドキュメントにも、カスタムタグを宣言する際にはカスタムタグの前にインデントがあってはならないと記載されていたことを思い出し、その意味するところを理解することができました。最後に`[^\x00]*`についてですが、 `\x00`は皆様がおっしゃるようにnull文字として、文字列の終端を意味するようですが、今回の正規表現ではnull文字というよりも**改行を含めた任意の一文字**として使用されているようです。 (null文字以外という指定の意もあるかと思いますが。) つまり、`( |.)*`,`[\s\S]*`+null文字以外のショートハンドなのではと思います。何故`[^\x00]*`という表現が出てくるのかしばらく疑問でしたが、試しに`[^\x00]*`を`.*`と置き換えた時に、今までマッチしていた文字列がマッチしなくなり、原因が改行コードにあったことにより、気がつくことができました。それぞれを理解出来たことにより、問題の正規表現も今となってはなるほどと思うことができるようになりました。今後同じような問題で悩む方にこの解決が何かお力になれれば幸いです。この自己解決につきまして、「いやいや、そうじゃないよ」といったような他に指摘すべき点を見受けられたかたがいらっしゃいましたら、後学のために是非ご指摘いただけましたらと思います。最後になりますがご回答を頂いた皆様誠にありがとうございました。 binzo

Answer

null文字の用途について調べまくったのですが出てきませんでした
http://ja.wikipedia.org/wiki/%E3%83%8C%E3%83%AB%E6%96%87%E5%AD%97
ただブラウザによっては文字化けしてしまうみたいだしそれを防いでるのかな？
(実際firefoxで試したら文字化けした)
2つ目の$はmフラグがついてるので質問どうり行ごとに判定されます
"その場合"というのが$のあとという意味なら$のあとも含まれます

調べましたが正規表現勉強中につき間違ってるかもしれません

Answer

正規表現`^`は、文字列先頭もしくは行頭（改行文字の直後）にマッチします。
正規表現`$`は、文字列末尾もしくは行末（改行文字の直前）にマッチします。

mフラグが指定されているときは、正規表現`.`が改行文字にもマッチするので、改行文字の前後にマッチするケースがよく出てきます。

`\x00`はNUL文字です。普通はあまり表に出てこないと思います。

Answer

[正規表現（RegExp）](http://www.tohoho-web.com/js/regexp.htm)
のフラグについての記載から/gimにより
**全文を複数行にわたり大文字小文字問わず検索**
するというフラグ指定になっているのでは?

また([^\x00]*?)は先頭にnull文字があるか、またその数は問わない、なおかつあるのかどうかわからない
という指定ですかね？
[MDN/正規表現](https://developer.mozilla.org/ja/docs/Web/JavaScript/Guide/Regular_Expressions#Advanced_Searching_With_Flags)
を参考に読んでいけば恐らく読めるとは思いますが……

関連した質問