「正規表現」とは結局なになのか？

Question

プログラムを書いていて，今までさっぱりわからなかったのですが，結局正規表現とは何なのでしょうか？

例えば，
/[０-９．‐－]/g
という表現では，「全角を半角に変換（ハイフン、ドット、数字以外を取り除く）」と，とあるサイトで書かれていました．
が，同じ「-」でも，取り除いたり「A〜Z」のように「から」という意味で使われていたりと，複数の意味があるように見えます．

さらに
/(?!^\-)[^\d\.]/g
のように，もはや私には意味がわかりません．

正規表現の読み方や，詳しい意味などを教えていただけないでしょうか．
よろしくお願いいたします．

Accepted Answer

参考情報ページを紹介します。

- 正規表現をグラフ化してくれる [https://www.debuggex.com/](https://www.debuggex.com/)
- JavaScriptの正規表現をビジュアライズ [http://regviz.org/](http://regviz.org/)

- ゼロから正規表現を使えるようになるためのステップ [http://qiita.com/seihowlow24/items/79f565f22b9223c6e848](http://qiita.com/seihowlow24/items/79f565f22b9223c6e848)
- 正規表現の勉強に役立つリンク [http://mi813.hatenablog.com/entry/2015/02/21/112128](http://mi813.hatenablog.com/entry/2015/02/21/112128)

- 正規表現とは [http://itpro.nikkeibp.co.jp/article/Keyword/20070207/261234/](http://itpro.nikkeibp.co.jp/article/Keyword/20070207/261234/)
> ...
> 正規表現（せいきひょうげん）とは，ある文字の並びを使って，より複雑な文字の並びを表現する方法です。
> 最も広く知られている例は「*」と「.」でしょう。
> 「*」は直前の文字の0個以上の並びを，「.」は何らかの1文字を表します。
> 正規表現を使うと，わずかな文字を書き下ろすだけで，柔軟な文字列の表現が可能になります。
> これが正規表現を使う理由です。
> ...
> 歴史的には1940年代の形式言語論に由来しますが，C言語とUNIXの開発に貢献したKen Thompson氏が1970年前後にQEDというエディタ・ソフトウエア（エディタ），ついでedと呼ばれるUNIX上のエディタに文字列検索用として組み込んだことから，コンピュータの世界でも利用されるようになりました。
> ...
> 　正規表現は，POSIXの標準，すなわち「POSIX Part2:Shell and Utilities」として標準化されています。
> しかし，さまざまなエディタ，プログラミング言語，シェルは，かならずしもPOSIX標準で定められた表現をすべては実装していません。さらに独自に拡張した正規表現も含めています。従って基本的な正規表現を覚えたら，用途に応じて「方言」に習熟する必要があります。
> ...

- redditから 正規表現： その理論、実装と歴史 [http://d.hatena.ne.jp/karasuyamatengu/20090915/1252974459](http://d.hatena.ne.jp/karasuyamatengu/20090915/1252974459)
> ...
> Perlをはじめとするスクリプト言語系とgrep,awkなど伝統的Unixのregexの実装には決定的な違いがある。
> 前者はbacktrackingを使い、後者はUnix創始者のKen Thompson氏が1960年代に発明したNFAベースのもの。
> 実は「a?」や単独のキャラクタ「a」が繰り返されるような「特殊」な正規表現だと、Thompson NFA実装の方が桁違いに速い。
> ...

Answer

こんにちは。

以前、このご質問の回答に

> ある条件を満たす文字列の集合（を 、文字列で表現したもの） 

と書かせて頂きましたが、このような捉え方で、より詳しく説明している文章を
（[超絶スゴいハッカー](http://ja.wikipedia.org/wiki/%E3%83%AA%E3%83%81%E3%83%A3%E3%83%BC%E3%83%89%E3%83%BB%E3%82%B9%E3%83%88%E3%83%BC%E3%83%AB%E3%83%9E%E3%83%B3)が創設者のプロジェクト内に、）みつけたので参考のため
追記させて頂きます。

1. [GNU プロジェクト](http://ja.wikipedia.org/wiki/GNU) の[ホームページ](http://www.gnu.org/)に行く。

2. 画面上の「ソフトウェア」をクリックして、[GNUソフトウェアのページ](http://www.gnu.org/software/software.html)に行く。

3. 画面下のほうに様々なソフトウェアのリンクのうち「退役したGNUパッケージ」にある、
　　[regex](http://www.gnu.org/software/regex/) をクリック

4. 説明に
> … see also the Regular expressions chapter in the Gnulib manual,  …
  とあるのに従って、[gnulib の正規表現の章](http://www.gnu.org/software/gnulib/manual/html_node/Regular-expressions.html)に行く。

5. [Overview](http://www.gnu.org/software/gnulib/manual/html_node/Overview.html#Overview) をクリック

6. 冒頭に以下のように書かれています。
---
A regular expression (or regexp, or pattern) is a text string 

that describes **some (mathematical) set of strings**. 
A regexp r matches a string s if s is in the set of strings described by r.
---

また、元のドキュメント、GNU regex 0.12のマニュアルを
和訳してくださっている方がいらっしゃいました。
ホームページにリンクフリーとあったので、上記のOverview の
和訳のリンクを貼らせていただきます。

[http://www.kt.rim.or.jp/~kbk/regex/re_1.html#SEC1](http://www.kt.rim.or.jp/~kbk/regex/re_1.html#SEC1)

以上です。ご参考まで。

Answer

`[`と`]`の間にある`-`と、普通の`-`は意味が違うんで、
囲われたものと囲われてないものの違いを覚えるだけでダイジョブです。
`^`は先頭を意味しますが、`[`と`]`の中では、除外の意味なります。

Answer

/[０-９．‐－]/g 
この[]の中の ０-９の-は０から９なのですから
．‐－も素直に、 .から－ の意味です 取り除くの意味はありませんし
半角-は合致しません

難しいと思ったのも実は勘違いしているだけかもしれませんよ。

Answer

「正規表現」は、規則のある文字列を探したり置き換えたりする表現方法で、プログラムの中で使われますが、どのプログラム言語の「正規表現」も似ていますが、同じではありません。
「正規」という言葉から「普遍的に正しい」みたいな意味を感じますが、結局、言語毎に正規表現があってそれを覚える必要が出てきます。なので理解をする事は時間と努力の無駄、正規表現事例集を見ながら書けば十分だと考えます。
「正規」なんて幻想だと思いますよ。

Answer

ご質問の
> 「正規表現」とは結局なになのか？
に対して、きちんと自分なりに自信のある答えを得るには、やはり「[詳説 正規表現](http://www.amazon.co.jp/dp/4873113598)」あたりを
ガッツリ読むのが良いと思いますが、以下に、あくまで私個人のイメージを書かせて頂きます。
 説明のための便宜上、様々な正規表現の中でも、まずは
「^ で始まり、$で終わるもの」
に話を限定させてください。つまり、まずは**正規表現「^ ・・・ $」とは何か？**という問い
から始めます。
　これに対する私の答えは、

 **ある条件を満たす文字列の集合**（を 、文字列で表現したもの）

というものになります。なお、ここでいう「集合」とは、数学で習う集合（Set）のことです。
以下、簡単な例を挙げて、説明します。

たとえば

^5[0|2|4|6|8]$

という正規表現は、十の位が5、一の位が偶数であるような二桁の整数を表す文字列の集合

A = { “50”, “52”, “54”, “56”, “58” }

を表していると考えることができます。上記の集合Aを定義する式は、プログラミング言語に
よるコードではなく、あくまで数学的な記号によって集合Aを定義する数式と思ってください。

ポイントとしては正規表現、

^5[0|2|4|6|8]$

を左から右へ読み進めるにしたがって、今の例でいうと、”50” や”52”といった文字列が、
「集合Aの要素として**生み出される**」もしくは、よりプログラマーっぽい「生成される」
という言葉を使って、「集合Aの要素として"50"や"52"が、**生成される**」という
イメージを持つことが肝心だろうと思います。
 この例だと、条件にあう文字列の個数は、つまり集合Aの要素数は５個と簡単に
列挙できる有限個ですから、正規表現を使わなくても、たとえば配列を使って
（※以下、コード例はすべてJavaです。）
```lang-＜java＞
String[] arrayOfA = {"50", "52", "54", "56", "58" };
```
というふうに書けますが、もっとずっと要素数の多い集合や、（可算ではあるが）無限個の
要素を持つ集合も考えられますよね。たとえば、集合Bを

B = { x ｜ x は半角小文字のアルファベットだけから構成され、かつ、長さ３文字の文字列 }

とすると、集合Bの要素数は何個になるかというと、２６の３乗で17576個という個数になり、
さきほどのAのように、プログラムの中でこんなコード
```lang-＜java＞
String[] arrayOfB = { “aaa”, “aab” … , “zzz” }; // 17576個、全部並べて書きます？
```
で、すべてを列挙して書くなんてことは、とてもやっていられないですよね。
しかし、正規表現を使えば、
```lang-＜java＞
String regExpOfB = "^[a-z]{3}$";
```
と書けまして（javaでは、前後の/ は不要です。）、この regExpOfB　が
集合Bを、**要素を列挙していなくても、実質的に**表していることになっている、
あるいは、集合論の用語でいえば正規表現 ^[a-z]{3}$ は、集合Ｂの
**内包的記法**をプログラムコードとして書ける形にしたものである、というのが
私の正規表現の理解の仕方です。

※集合の「**内包的記法**」については、以下をご参照ください。
　[集合の記述法（集合 - Wikipedia）](http://ja.wikipedia.org/wiki/%E9%9B%86%E5%90%88#.E9.9B.86.E5.90.88.E3.81.AE.E8.A8.98.E8.BF.B0.E6.B3.95)

上記のように、正規表現 「^ ・・・ $」を

 **ある条件を満たす文字列の集合**(を、文字列で表現したもの)

と考えると、＾・・・＄に限らず、正規表現とは何かという、最初のご質問に戻ると、

 **ある条件を満たす文字列を含む文字列の集合**(を、文字列で表現したもの)

と考えることができます。

 以上、正規表現をマスターする考え方（のひとつ）として、
> 正規表現とは、ある条件を満たす文字列の集合（を文字列で表現したもの）である。

という考え方を挙げさせて頂きました。
お役に立てましたら幸いです。

Answer

正規表現には、取り除いたりする機能はありません。「取り除く」等は正規表現を使うプログラミング言語側の機能です。

正規表現は、「文字列の中の一部」を指定する方法です。文字列の一部を指定する場合に、「123文字目から200文字目」などのように文字数位置で指定する方法もありますが、そうではなく、「"A"という文字から"B"という文字が出てくるまで」とか「3桁の数字」というように文字列の内容で文字列の一部を指定する方法です。

例えば`/[A-Z]/`だと、「半角英字の大文字1文字」という一部分を指定します。その一部分を削除するのか、取り出すのか、置き換えるのか、などは正規表現で無く、それを使うプログラミング言語側で処理します。

正規表現は、あくまで、「文字列のどの場所なのか」を指定する機能です。

Answer

> 結局正規表現とは何なのでしょうか？一言で言うと、　文字列に対する処理を簡潔に記述できる物です。例えば以下のように書くと > str = "abc123"; > if( str.match(/^[a-z0-9]{1,}$/) ){ /* 何らかの処理 */ } a～zの半角英字(小文字限定)か半角数字、1文字以上の組み合わせの文字列かという意味になりますが、これをプログラムに起こすとそれなりの行数になります。 ```lang-javascript if( isAlnum("abc123") ){ /* 何らかの処理 */ } function isAlnum(str){ //空文字ならfalse if(str == "") return(false); //ASCIIコードを取得 var charcd_a = "a".charCodeAt(0); var charcd_z = "z".charCodeAt(0); var charcd_0 = "0".charCodeAt(0); var charcd_9 = "9".charCodeAt(0); //1文字ずつチェックする var len = str.length; for(var i=0; i

Answer

`/[０-９．‐－]/g`はわかりづらいですが1つ目は半角ハイフンで2つ目は全角ハイフンです。
この正規表現は全角の数字`０-９`、ドット`．`、ハイフン`‐`、マイナス`－`にマッチします。

`?!`は否定先読みと呼ばれるものです。
[正規表現/REGEXP/が含まれない行にマッチする正規表現（該当行を削除したい場合に）](http://qiita.com/riocampos/items/42d7be63300dbe499fe3)
`/(?!^\-)[^\d\.]/g`は先頭の文字の先頭の半角ハイフンと半角数字、半角ドット以外にマッチします。

以下のサイトでは正規表現を解析し、視覚化してくれるので理解の手助けになります。
[Regexper](http://regexper.com/)

**追記**
これらだけでは置換はできません。
例えばJavascriptであれば以下のうようにreplaceを利用すれば置換できます。
```lang-javascript
newString = str.replace(/[０-９．‐－]/g, function(w){
   return w + "@";//マッチした文字の後ろに@付与
});
```

「正規表現」とは結局なになのか？

that describes some (mathematical) set of strings.
A regexp r matches a string s if s is in the set of strings described by r.

関連した質問

that describes some (mathematical) set of strings. A regexp r matches a string s if s is in the set of strings described by r.

関連した質問

that describes some (mathematical) set of strings.
A regexp r matches a string s if s is in the set of strings described by r.