トップ Javaに関する質問正規表現で『「abc」と言う塊以外の文字列』は指定できるか

編集履歴

回答編集履歴

2016/03/31 10:04

投稿

スコア5223

answer CHANGED Viewed

@@ -90,23 +90,16 @@
 <?php
 $str = 'I am Tom. He is Mr. Smith.';
-$sentences = preg_split(
-    '/(?:Mr|Mr?s|Dr|Sir|Prof)\.(*SKIP)(*FAIL)|\.\K\s+/',
+$sentences = preg_split('/(?:Mr|Mr?s|Dr|Sir|Prof)\.(*SKIP)(*FAIL)|\.\K\s+/', $str);
-    $str, -1, PREG_SPLIT_NO_EMPTY
-);
 var_dump($sentences);
 /*
 array(2) {
   [0]=>
   string(9) "I am Tom."
   [1]=>
   string(16) "He is Mr. Smith."
 }
 */
 ```

あ

2016/03/31 10:03

投稿

mpyw

スコア5223

answer CHANGED Viewed

@@ -78,4 +78,35 @@
 3. 現在位置を今マッチさせたバイト列のぶんだけ進める．マッチしていなければ1バイト進める．
 4. まだ後ろに1バイト以上あれば1に戻る．無ければ終了する．
-という処理を行っています．
+という処理を行っています．
+----
+【追記】
+コメントにも書きましたが，こちらにも最終目的のコードをシンタックスハイライトをつけて書いておきます．
+```php
+<?php
+$str = 'I am Tom. He is Mr. Smith.';
+$sentences = preg_split(
+    '/(?:Mr|Mr?s|Dr|Sir|Prof)\.(*SKIP)(*FAIL)|\.\K\s+/',
+    $str, -1, PREG_SPLIT_NO_EMPTY
+);
+var_dump($sentences);
+/*
+array(2) {
+  [0]=>
+  string(9) "I am Tom."
+  [1]=>
+  string(16) "He is Mr. Smith."
+}
+*/
+```

2016/03/31 09:59

投稿

mpyw

スコア5223

answer CHANGED Viewed

@@ -76,5 +76,6 @@
 1. まず現在位置から「カレー」「ライス」いずれかにマッチするバイト列を探す．**マッチしたら何も無かったことにして3に進む．**マッチしなければ2に進む．
 2. **後ろに「カレー」「ライス」「末尾」のいずれかが来るように**，1バイト以上の可能な限り短いバイト列を探す．マッチしたら置換処理を行う．マッチしなければ3に進む．
 3. 現在位置を今マッチさせたバイト列のぶんだけ進める．マッチしていなければ1バイト進める．
+4. まだ後ろに1バイト以上あれば1に戻る．無ければ終了する．
 という処理を行っています．

2016/03/29 16:33

投稿

mpyw

スコア5223

answer CHANGED Viewed

@@ -75,6 +75,6 @@
 1. まず現在位置から「カレー」「ライス」いずれかにマッチするバイト列を探す．**マッチしたら何も無かったことにして3に進む．**マッチしなければ2に進む．
 2. **後ろに「カレー」「ライス」「末尾」のいずれかが来るように**，1バイト以上の可能な限り短いバイト列を探す．マッチしたら置換処理を行う．マッチしなければ3に進む．
-3. 現在位置を今マッチさせたバイト列のぶんだけ進める．
+3. 現在位置を今マッチさせたバイト列のぶんだけ進める．マッチしていなければ1バイト進める．
 という処理を行っています．

2016/03/29 16:23

投稿

mpyw

スコア5223

answer CHANGED Viewed

@@ -75,6 +75,6 @@
 1. まず現在位置から「カレー」「ライス」いずれかにマッチするバイト列を探す．**マッチしたら何も無かったことにして3に進む．**マッチしなければ2に進む．
 2. **後ろに「カレー」「ライス」「末尾」のいずれかが来るように**，1バイト以上の可能な限り短いバイト列を探す．マッチしたら置換処理を行う．マッチしなければ3に進む．
-3. 現在位置を今マッチさせた文字列のぶんだけ進める．
+3. 現在位置を今マッチさせたバイト列のぶんだけ進める．
 という処理を行っています．

2016/03/29 16:21

投稿

mpyw

スコア5223

answer CHANGED Viewed

@@ -7,8 +7,6 @@
 ```php
 <?php
-header('Content-Type: text/plain; charset=UTF-8');
 $str = 'ライスパスタカレーパスタドリア';
 echo str_replace('パスタ', '', $str), "\n"; // ライスカレードリア
@@ -19,8 +17,6 @@
 ```php
 <?php
-header('Content-Type: text/plain; charset=UTF-8');
 $str = 'ライスパスタライスカレーライスカレードリア';
 print_r([
@@ -52,7 +48,7 @@
 ]);
 ```
-`strtr` `preg_replace (単一の正規表現で処理)` においては一度置換したところを次回の置換対象から外してくれますが， `str_replace` `preg_replace (複数の正規表現で処理)` においては全く考慮してくれません． 速度面においても，僅かな違いですが，一般的には速い順に
+**`strtr` `preg_replace (単一の正規表現で処理)` においては一度置換したところを次回の置換対象から外してくれますが， `str_replace` `preg_replace (複数の正規表現で処理)` においては全く考慮してくれません． **速度面においても，僅かな違いですが，一般的には速い順に
 1. `str_replace`
 2. `strtr` (実はもう1つ使い方があるがこの例のように連想配列で置換する場合)
@@ -61,13 +57,11 @@
 として差がつくと思うので，書きやすさも考慮して適宜使い分けてください．
-また正規表現の高度なテクニックですが，バックトラッキングコントロールを使うとまさに「あるバイト列以外のバイト列を直接マッチさせることもできます．
+また正規表現の高度なテクニックですが，バックトラッキングコントロールを使うとまさに**「あるバイト列以外のバイト列」**を直接マッチさせることもできます．
 ```php
 <?php
-header('Content-Type: text/plain; charset=UTF-8');
 $str = 'ライスパスタライスカレーライスカレードリア';
 echo preg_replace(

2016/03/29 16:20

投稿

mpyw

スコア5223

answer CHANGED Viewed

@@ -1,6 +1,6 @@
 まず前提として，この回答においては文字列ではなく**バイト列**という表記にします．日本語を相手にしても本当に1文字という単位で見てくれるのは`u`修飾子をつけた`preg_*`系の関数，あるいは文字コードをUTF-8として正しく指定した`mb_*`系の関数のみです．残りの関数は全てバイト単位で計算します．
--[マルチバイト文字を扱う際に気をつけること](http://qiita.com/mpyw/items/a8dba1b80fe68523b8eb)
+- [マルチバイト文字を扱う際に気をつけること](http://qiita.com/mpyw/items/a8dba1b80fe68523b8eb)
 本題に入ります．既に回答にありますが，**除外したいバイト列を空白に置換して残ったバイト列を得る**というアプローチにて`preg_replace`あるいは`preg_replace_callback`を使って済むのであればそれが一番簡単です．正規表現無しでも簡単に書ける範囲であれば`str_replace`や`strtr`を使うほうがよいでしょう．なお文字コードがUTF-8である場合は，正規表現の文字クラス`[]`を使わない限り，「文字列＝バイト列」のように扱っても正しく動作します．このことは上にリンクしたQiitaの記事でも解説しています．

一応s修飾子を追加

2016/03/29 16:17

投稿

mpyw

スコア5223

answer CHANGED Viewed

@@ -1,38 +1,68 @@
-既に回答にありますが，`preg_replace`あるいは`preg_replace_callback`を使って文字列置換で済むのであればそれが一番簡単です．正規表現無しでも簡単に書ける範囲であれば`str_replace`や`strtr`を使うほうがよいでしょう．但しこれらには微妙な違いがあるので注意してください．以下を実行してみるとわかります．
+まず前提として，この回答においては文字列ではなく**バイト列**という表記にします．日本語を相手にしても本当に1文字という単位で見てくれるのは`u`修飾子をつけた`preg_*`系の関数，あるいは文字コードをUTF-8として正しく指定した`mb_*`系の関数のみです．残りの関数は全てバイト単位で計算します．
+-[マルチバイト文字を扱う際に気をつけること](http://qiita.com/mpyw/items/a8dba1b80fe68523b8eb)
+本題に入ります．既に回答にありますが，**除外したいバイト列を空白に置換して残ったバイト列を得る**というアプローチにて`preg_replace`あるいは`preg_replace_callback`を使って済むのであればそれが一番簡単です．正規表現無しでも簡単に書ける範囲であれば`str_replace`や`strtr`を使うほうがよいでしょう．なお文字コードがUTF-8である場合は，正規表現の文字クラス`[]`を使わない限り，「文字列＝バイト列」のように扱っても正しく動作します．このことは上にリンクしたQiitaの記事でも解説しています．
 ```php
 <?php
 header('Content-Type: text/plain; charset=UTF-8');
+$str = 'ライスパスタカレーパスタドリア';
+echo str_replace('パスタ', '', $str), "\n"; // ライスカレードリア
+```
+但しこれらには，複数の置換を同時に行う際に微妙な違いがあるので注意してください．以下を実行してみるとわかります．
+```php
+<?php
+header('Content-Type: text/plain; charset=UTF-8');
 $str = 'ライスパスタライスカレーライスカレードリア';
 print_r([
     'str_replace' => str_replace(
         ['カレーライス', 'カレー', 'ライス'],
         ['【カレーライス】', '【カレー】', '【ライス】'],
         $str
-    ),
+    ), // 【ライス】パスタ【ライス】【【カレー】【ライス】】【カレー】ドリア
     'strtr' => strtr($str, [
         'カレーライス' => '【カレーライス】',
         'カレー' => '【カレー】',
         'ライス' => '【ライス】',
-    ]),
+    ]), // 【ライス】パスタ【ライス】【カレーライス】【カレー】ドリア
     'preg_replace (複数の正規表現で処理)' => preg_replace(
         ['/カレーライス/', '/カレー/', '/ライス/'],
         '【$0】',
         $str
-    ),
+    ), // 【ライス】パスタ【ライス】【【カレー】【ライス】】【カレー】ドリア
     'preg_replace (単一の正規表現で処理)' => preg_replace(
         '/カレーライス|カレー|ライス/',
         '【$0】',
         $str
-    ),
+    ), // 【ライス】パスタ【ライス】【カレーライス】【カレー】ドリア
 ]);
 ```
-正規表現の高度なテクニックですが，バックトラッキングコントロールを使うとまさに『「abc」と言う塊以外の文字列』を直接マッチさせることもできます．
+`strtr` `preg_replace (単一の正規表現で処理)` においては一度置換したところを次回の置換対象から外してくれますが， `str_replace` `preg_replace (複数の正規表現で処理)` においては全く考慮してくれません． 速度面においても，僅かな違いですが，一般的には速い順に
+1. `str_replace`
+2. `strtr` (実はもう1つ使い方があるがこの例のように連想配列で置換する場合)
+3. `preg_replace (単一の正規表現で処理)`
+4. `preg_replace (複数の正規表現で処理)`
+として差がつくと思うので，書きやすさも考慮して適宜使い分けてください．
+また正規表現の高度なテクニックですが，バックトラッキングコントロールを使うとまさに「あるバイト列以外のバイト列を直接マッチさせることもできます．
 ```php
 <?php
@@ -40,11 +70,17 @@
 $str = 'ライスパスタライスカレーライスカレードリア';
-print_r([
+echo preg_replace(
-    'preg_replace (バックトラッキングコントロール)' => preg_replace(
-        '/(?:カレー|ライス)(*SKIP)(*FAIL)|.+?(?=カレー|ライス|\z)/',
+    '/(?:カレー|ライス)(*SKIP)(*FAIL)|.+?(?=カレー|ライス|\z)/s',
-        '【$0】',
+    '【$0】',
-        $str
+    $str
-    ),
+), "\n"; // ライス【パスタ】ライスカレーライスカレー【ドリア】
-]);
-```
+```
+上記の例では
+1. まず現在位置から「カレー」「ライス」いずれかにマッチするバイト列を探す．**マッチしたら何も無かったことにして3に進む．**マッチしなければ2に進む．
+2. **後ろに「カレー」「ライス」「末尾」のいずれかが来るように**，1バイト以上の可能な限り短いバイト列を探す．マッチしたら置換処理を行う．マッチしなければ3に進む．
+3. 現在位置を今マッチさせた文字列のぶんだけ進める．
+という処理を行っています．

修正

2016/03/29 16:16

投稿

mpyw

スコア5223

answer CHANGED Viewed

@@ -20,7 +20,7 @@
     ]),
     'preg_replace (複数の正規表現で処理)' => preg_replace(
         ['/カレーライス/', '/カレー/', '/ライス/'],
-        ['【カレーライス】', '【カレー】', '【ライス】'],
+        '【$0】',
         $str
     ),
     'preg_replace (単一の正規表現で処理)' => preg_replace(