openpyxlを用いたプログラムを作っています。
多量のデータを読み込み、出力をする際エラーが検出されます。
エラー内容は以下の通りです。
Traceback (most recent call last):
File "C:\Users\kkoya\OneDrive\Desktop\python 32bit\OCR_DATA.py", line 122, in <module>
ws['D'+str(i)].value = wakati_data
File "C:\Users\kkoya\AppData\Local\Programs\Python\Python36-32\lib\site-packages\openpyxl\cell\cell.py", line 299, in value
self._bind_value(value)
File "C:\Users\kkoya\AppData\Local\Programs\Python\Python36-32\lib\site-packages\openpyxl\cell\cell.py", line 196, in _bind_value
value = self.check_string(value)
File "C:\Users\kkoya\AppData\Local\Programs\Python\Python36-32\lib\site-packages\openpyxl\cell\cell.py", line 160, in check_string
raise IllegalCharacterError
openpyxl.utils.exceptions.IllegalCharacterError
>>>
さらに調べたところ pythonでデータ書き出しの際に「openpyxl.utils.exceptions.IllegalCharacterError」が出たときの対応が出てきたのですがこのサイトに乗っているコード
import pandas as pd
import openpyxl
def illegal_char_remover(data):
ILLEGAL_CHARACTERS_RE = re.compile(
r'[\000-\010]|[\013-\014]|[\016-\037]|[\x00-\x1f\x7f-\x9f]|[\uffff]')
"""Remove ILLEGAL CHARACTER."""
if isinstance(data, str):
return ILLEGAL_CHARACTERS_RE.sub("", data)
else:
return data
#サーバ情報
conn = pyodbc.connect(サーバ情報)
#クエリ実行
df = pd.read_sql(クエリ情報, conn )
#IllegalCharacter除外(ここが追加分)
df = df.applymap(illegal_char_remover)
このコードがどのような働きをするのかよろしければご教授お願いいたします。
エラー内容の追記をしました。
-
気になる質問をクリップする
クリップした質問は、後からいつでもマイページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
クリップを取り消します
-
良い質問の評価を上げる
以下のような質問は評価を上げましょう
- 質問内容が明確
- 自分も答えを知りたい
- 質問者以外のユーザにも役立つ
評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。
質問の評価を上げたことを取り消します
-
評価を下げられる数の上限に達しました
評価を下げることができません
- 1日5回まで評価を下げられます
- 1日に1ユーザに対して2回まで評価を下げられます
質問の評価を下げる
teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。
- プログラミングに関係のない質問
- やってほしいことだけを記載した丸投げの質問
- 問題・課題が含まれていない質問
- 意図的に内容が抹消された質問
- 過去に投稿した質問と同じ内容の質問
- 広告と受け取られるような投稿
評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。
質問の評価を下げたことを取り消します
この機能は開放されていません
評価を下げる条件を満たしてません
質問の評価を下げる機能の利用条件
この機能を利用するためには、以下の事項を行う必要があります。
- 質問回答など一定の行動
-
メールアドレスの認証
メールアドレスの認証
-
質問評価に関するヘルプページの閲覧
質問評価に関するヘルプページの閲覧
checkベストアンサー
+1
例外は openpyxl の cell.py の line 155 で発生しています。
if next(ILLEGAL_CHARACTERS_RE.finditer(value), None):
raise IllegalCharacterError
指定されている「無効な文字」が見つかったら、例外を発生させるというものです。
ILLEGAL_CHARACTERS_RE を見ると、具体的にその文字は以下のように定義されています。
ILLEGAL_CHARACTERS_RE = re.compile(r'[\000-\010]|[\013-\014]|[\016-\037]')
なので、例外が発生しないように予め置換しています。
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
+1
下記の不都合な文字を除去しています。
正規表現を読むと、
8進数で、000 - 008, 013, 014, 016 - 037
16進数で、0x00 - 0x1F, 0x7F - 0x9F,
それから、FFFF
いかがでしょうか。
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
+1
このコードがどのような働きをするのか
不正な文字、というか、正規表現「r'[\000-\010]|[\013-\014]|[\016-\037]|[\x00-\x1f\x7f-\x9f]|[\uffff]'
」に合致する文字を削除しています。
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
15分調べてもわからないことは、teratailで質問しよう!
- ただいまの回答率 88.37%
- 質問をまとめることで、思考を整理して素早く解決
- テンプレート機能で、簡単に質問をまとめられる
2018/09/12 15:20
ILLEGAL_CHARACTERS_REを用いれば他のプログラムにも応用は可能ですか?
2018/09/12 15:27
「文字列から特定な文字を除く」というタスクで、上記のことは応用できます。
import re
regrex = re.compile(r'[a-c]')
string = regrex.sub("", 'abcdefg')
print(string) # defg