pythonで英語のテキストファイルのなかにある日本語等(ユニコード文字)を削除しようとおもっているのですが、うまくいきません
たとえば、\u3067がテキストファイルに書かれているとして
\u3067を削除することはできます
削除自体は以下に示すように、空白と置換しています
python
1match2 = re.search("[a-zA-Z0-9.-\u3067*/]*\u3067*[a-zA-Z0-9.-\u3067*/]*", doc2[0]) 2 if match2: 3 doc2[0] = doc2[0].replace(match2.group(0), " ") 4
しかし、任意のユニコード文字を扱うときにどのように記述してよいかわかりません
正規表現を用いて、書けないか試行錯誤していたのですができませんでした
どのように記述すればよいか教えていただけるとありがたいです
回答1件
あなたの回答
tips
プレビュー