回答編集履歴

誤字修正

2021/01/20 22:37

投稿

スコア11990

answer CHANGED Viewed

@@ -1,6 +1,6 @@
 pandasが利用するPython標準の正規表現モジュールreは、Unicodeプロパティ(`\p{Hiragana}`など)に対応していません。提示されたエラーはそれが原因です。
-いっぽう、reに対して広報互換性を持つregexパッケージが存在し、こちらはUnicodeプロパティにある程度対応しています。
+いっぽう、reに対して後方互換性を持つregexパッケージが存在し、こちらはUnicodeプロパティにある程度対応しています。
 [regex · PyPI](https://pypi.org/project/regex/)

対策を追加

2021/01/20 22:37

投稿

スコア11990

answer CHANGED Viewed

@@ -1,1 +1,31 @@
-pandasが利用するPython標準の正規表現モジュールreは、Unicodeプロパティ(`\p{Hiragana}`など)に対応していません。
+pandasが利用するPython標準の正規表現モジュールreは、Unicodeプロパティ(`\p{Hiragana}`など)に対応していません。提示されたエラーはそれが原因です。
+いっぽう、reに対して広報互換性を持つregexパッケージが存在し、こちらはUnicodeプロパティにある程度対応しています。
+[regex · PyPI](https://pypi.org/project/regex/)
+> This regex implementation is backwards-compatible with the standard ‘re’ module, but offers additional functionality.
+そこで、`replace`を使う代わりに、regexで同様の処理を行なう関数`regex.subn`を`apply`で呼び出すようにすれば、Unicodeプロパティを使った置換処理を行なえます。
+```Python
+import pandas as pd
+import io
+import regex
+txt = """
+BANGO
+これはregexをpandasに適用するテストです。
+"""
+df = pd.read_csv(io.StringIO(txt))
+# print(df)
+print(df['BANGO'].apply(lambda x: regex.subn(
+    r'(?:\p{Hiragana}|\p{Script=Han})+', '', x)[0]))
+```
+```result
+0    regexpandasテスト。
+Name: BANGO, dtype: object
+```

補足を追加

2021/01/19 11:39

投稿

スコア11990

answer CHANGED Viewed

	@@ -1,1 +1,1 @@
1	- Python標準の正規表現モジュールreは、Unicodeプロパティ(`\p{Hiragana}`など)に対応していません。
1	+ pandasが利用するPython標準の正規表現モジュールreは、Unicodeプロパティ(`\p{Hiragana}`など)に対応していません。