Pythonのreモジュールで長音が扱えない？

lang
1# coding: utf-8
2
3import re
4
5print re.search('ー' , 'チャーハン')

上記コードを実行すると下記のエラーがでます。

Traceback (most recent call last):
File "sample.py", line 5, in <module>
print re.search('ー' , 'チャーハン')
File "C:\Python27\lib\re.py", line 146, in search
return _compile(pattern, flags).search(string)
File "C:\Python27\lib\re.py", line 251, in _compile
raise error, v # invalid expression
sre_constants.error: unexpected end of regular expression

re.searchの第一引数が
'チ'でも'ャ'でも'ハ'でも'ン'でも問題なく処理されるのですが、
'ー'の場合だけ、なぜかエラーがでてしまいます。

しかし、同じ'ー'でもreモジュールを使わず、
printで標準出力する場合はエラーも出ず、文字化けもせず、
正常に表示されます。

lang
1# coding: utf-8
2
3print 'ー'

なぜ、'ー'の文字だけがreモジュールで
扱うことができないのでしょうか？

自分なりにwebで検索して調べてみたものの、
原因も解決策も見つかりませんでした。

原因および解決策をご存じであれば教えていただきたいです。
よろしくお願いいたします。

なお、当方の環境は、
OSがWindows7 SP1、
Pythonのバージョンは2.7.9です。

行動規範の内容に同意します

回答2件

ベストアンサー

ファイルの文字エンコーディングが Shift_JIS になっていませんか？

下記のコードを Windows のコマンドプロンプトで正しく実行すると、むしろ化けてしまうはずです。化けないということは utf-8 で記述されていないと推測されます。

lang
1# coding: utf-8
2print 'ー'

投稿2015/05/17 11:15

ngyuki

総合スコア4514

lemonade

2015/05/17 11:38

まさにその通りでした。スクリプトが書かれたファイルをutf-8で保存しなおして実行してみたところ、うまくいきました。本当に助かりました。ありがとうございました。

行動規範の内容に同意します

お邪魔します。

lang
1m = re.search(u'ー' , u'チャーハン)
2if m:
3    print m.group(0)
4else:
5    "No match."

としたら動作しましたよ。
内部文字コードが環境によって違うのではっきりしたことはわかりませんが、正規表現モジュールが正規表現をコンパイルするときに、メタ文字と一部誤認するような文字コードが含まれているとか、そういうことではないですかね。
変数で文字列を受ける場合も、unicode(str)などを使ってユニコード化してからモジュールに渡してやるのがよいですよ。

以上、参考まで。

投稿2015/05/17 11:01

ShinpeiYamamoto

総合スコア540

lemonade

2015/05/17 11:12

この度はご回答いただきまして、ありがとうございます。早速、当方の環境で書いていただいたコードを実行してみたところ、当方の環境では下記のエラーが出てしまい動作しませんでした。 File "sample.py", line 4 m = re.search(u'・ｽ[' , u'・ｽ`・ｽ・ｽ・ｽ[・ｽn・ｽ・ｽ) ^ SyntaxError: EOL while scanning string literal

lemonade

2015/05/17 11:24

すみません。先ほど書いていただいたコードをよく確認してみたところ、「チャーハン」を囲うクォートが片方抜けているようですね。そのまま実行してしまいました。その部分を早速修正して再度試してみたのですが、今度は、下記のエラーがでて当方の環境ではうまく動作しませんでした。。 File "sample.py", line 5 m = re.search(u'ー' , u'チャーハン') SyntaxError: (unicode error) 'utf8' codec can't decode byte 0x81 in position 0: invalid start byte