Pythonの正規表現について

Question

pythonの正規表現についての質問です。

ある学習の中で、「～  /  ～」「～  ／  ～」というような文字列をreモジュールのsplitにて分けるというものがありました。
この際、その学習の中では次のように解説していました。

```ここに言語を入力
b = re.split('\s*[/／	]+\s*', a)
```

※aとbはそれぞれ変数名です。

ここで疑問なのは、なぜ"\s*[/／/t]+\s*"とせず、\sとし、\sを打ち消しているのでしょうか？
ちなみに、この場合\sでも\sでも同じように動作するため違いがわかりませんでした。
また\sの時、\sは\によって打ち消されるため、\sは文字列として認識されると思ったのですが、そうではないのでしょうか。

回答してくださる方おりましたらよろしくお願い致します。

Accepted Answer

python文字列そのもののエスケープシーケンスがあるため、`\`を表現するためには`\`と書かないと危ないからです。

たとえば
```python
>>> print("	")  # 	と表示
	
>>> print("	")  # tab文字が出てくる。
	
```

まあ、`\s`というエスケープシーケンスはないので、その場合はどちらでも同じになるのかな？　というような気もしますが・・・ちょっと詳細は不明。

なお、文字列の先頭に`r`をつけて`r"文字列"`のようにすると、エスケープシーケンスが効かなくなり書いた通りの文字列になるので、余計な手間が省けます。読みやすいので、正規表現をするときはだいたいこれを使うと思います。

```python
>>> print(r"	")
	
>>> print(r"	")
	
```

Answer

> この場合\sでも\sでも同じように動作するため

~~\sで動作しますか？~~ 試してみたところ、動作しますね。
```Python
import re
re.compile('\s')
```

**実行結果** [Wandbox](https://wandbox.org/permlink/ERZfG184niMiVYjR)
```
prog.py:2: SyntaxWarning: invalid escape sequence \s
  re.compile('\s')
```

**追記：** 警告を例外に見間違えました。とんだ凡ミスです。失礼しました。

---
> ここで疑問なのは、なぜ"\s*[/／/t]+\s*"とせず、\sとし、\sを打ち消しているのでしょうか？

リファレンスに解説があります。
> 正規表現では、特殊な形式を表したり、特殊文字の持つ特別な意味を呼び出さずにその特殊な文字を使えるようにするために、バックスラッシュ文字 ('\') を使います。こうしたバックスラッシュの使い方は、 Python の文字列リテラルにおける同じバックスラッシュ文字と衝突を起こします。例えば、バックスラッシュ自体にマッチさせるには、パターン文字列として '\' と書かなければなりません、というのも、正規表現は \ でなければならず、さらに正規な Python 文字列リテラルでは各々のバックスラッシュを \ と表現せねばならないからです。

> 正規表現パターンに Python の raw string 記法を使えばこの問題を解決できます。 'r' を前置した文字列リテラル内ではバックスラッシュを特別扱いしません。従って、 "
" が改行一文字の入った文字列になるのに対して、 r"
" は '\' と 'n' という二つの文字の入った文字列になります。通常、 Python コード中では、パターンをこの raw string 記法を使って表現します。

引用元：[Python 標準ライブラリ » re — 正規表現操作](https://docs.python.jp/3/library/re.html)

『\で\sを打ち消している』のではなく、『\sで\sを表現している』ですかね。

assert '\s' == '\s' の謎
---
> 標準の C とは違い、認識されなかったエスケープシーケンスはすべて、そのまま文字列中に残ります。すなわち、バックスラッシュも結果中に残ります。(この挙動はデバッグの際に便利です: エスケープシーケンスが誤入力されたら、その出力結果が失敗しているのが分かりやすくなります。) 文字列中でのみ認識されるエスケープシーケンスは、バイト列リテラルには、認識されないエスケープシーケンスとして分類されるので注意してください。

> バージョン 3.6 で変更: 認識されないエスケープシーケンスには DeprecationWarning が出ます。将来どこかのバージョンの Python で、認識されないエスケープシーケンスは SyntaxError になるでしょう。

引用元：[Python 言語リファレンス » 字句解析](https://docs.python.jp/3/reference/lexical_analysis.html#literals)

便利かこれ...？

```Python
assert '\s' == '\s'
print('s is ok')

assert '	' == '	'
print('t is ok')
```

**実行結果** [CPython 3.6.2 @ Wandbox](https://wandbox.org/permlink/gYsbi8o4Zlk7z2df)
```
s is ok
Traceback (most recent call last):
  File "prog.py", line 4, in <module>
    assert '	' == '	'
AssertionError
```

assert '\s' == '\s' の謎

関連した質問