pythonでのエラー回避の方法

openpyxlを用いたプログラムを作っています。
多量のデータを読み込み、出力をする際エラーが検出されます。
エラー内容は以下の通りです。

python
1Traceback (most recent call last):
2  File "C:\Users\kkoya\OneDrive\Desktop\python 32bit\OCR_DATA.py", line 122, in <module>
3    ws['D'+str(i)].value = wakati_data
4  File "C:\Users\kkoya\AppData\Local\Programs\Python\Python36-32\lib\site-packages\openpyxl\cell\cell.py", line 299, in value
5    self._bind_value(value)
6  File "C:\Users\kkoya\AppData\Local\Programs\Python\Python36-32\lib\site-packages\openpyxl\cell\cell.py", line 196, in _bind_value
7    value = self.check_string(value)
8  File "C:\Users\kkoya\AppData\Local\Programs\Python\Python36-32\lib\site-packages\openpyxl\cell\cell.py", line 160, in check_string
9    raise IllegalCharacterError
10openpyxl.utils.exceptions.IllegalCharacterError
11>>>

さらに調べたところ　pythonでデータ書き出しの際に「openpyxl.utils.exceptions.IllegalCharacterError」が出たときの対応が出てきたのですがこのサイトに乗っているコード

python
1import pandas as pd
2import openpyxl
3
4def illegal_char_remover(data):
5    ILLEGAL_CHARACTERS_RE = re.compile(
6        r'[\000-\010]|[\013-\014]|[\016-\037]|[\x00-\x1f\x7f-\x9f]|[\uffff]')
7    """Remove ILLEGAL CHARACTER."""
8    if isinstance(data, str):
9        return ILLEGAL_CHARACTERS_RE.sub("", data)
10    else:
11        return data
12
13#サーバ情報
14conn = pyodbc.connect(サーバ情報)
15#クエリ実行
16df = pd.read_sql(クエリ情報, conn )
17#IllegalCharacter除外（ここが追加分）
18df = df.applymap(illegal_char_remover)

このコードがどのような働きをするのかよろしければご教授お願いいたします。

エラー内容の追記をしました。

行動規範の内容に同意します

回答3件

ベストアンサー

例外は openpyxl の cell.py の line 155 で発生しています。

python
1if next(ILLEGAL_CHARACTERS_RE.finditer(value), None):
2    raise IllegalCharacterError

指定されている「無効な文字」が見つかったら、例外を発生させるというものです。
ILLEGAL_CHARACTERS_RE を見ると、具体的にその文字は以下のように定義されています。

ILLEGAL_CHARACTERS_RE = re.compile(r'[\000-\010]|[\013-\014]|[\016-\037]')

なので、例外が発生しないように予め置換しています。

投稿2018/09/12 05:56

tiitoi

総合スコア21956

dkymmmmmt

2018/09/12 06:20

回答ありがとうございます・・！ ILLEGAL_CHARACTERS_REを用いれば他のプログラムにも応用は可能ですか？

tiitoi

2018/09/12 06:27

上の解決策としてこの文字を置換するようになっているのは、あくまで openpyxl で無効が文字として、 `[\000-\010]|[\013-\014]|[\016-\037]` が定義されているからです。「文字列から特定な文字を除く」というタスクで、上記のことは応用できます。 import re regrex = re.compile(r'[a-c]') string = regrex.sub("", 'abcdefg') print(string) # defg

行動規範の内容に同意します