質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Linux

Linuxは、Unixをベースにして開発されたオペレーティングシステムです。日本では「リナックス」と呼ばれています。 主にWebサーバやDNSサーバ、イントラネットなどのサーバ用OSとして利用されています。 上位500のスーパーコンピュータの90%以上はLinuxを使用しています。 携帯端末用のプラットフォームAndroidは、Linuxカーネル上に構築されています。

UTF-8

UTF-8は8ビット符号単位の文字符号化形式及び文字符号化スキームです。データ交換方式、ファイル形式としては、一般的にUTF-8が使われる傾向があります。

文字コード

文字コードとは、文字や記号をコンピュータ上で使用するために用いられるバイト表現を指します。

Mecab

Mecabは、オープンソースの形態素解析エンジンです。 言語、辞書、コーパスに依存しない汎用的な設計を基本方針としています。 Mecabの由来は、開発者の好物である和布蕪(めかぶ)から名づけられました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

2回答

1845閲覧

mecabの辞書はutf8なのに文字化けする

camellia0216

総合スコア1

Linux

Linuxは、Unixをベースにして開発されたオペレーティングシステムです。日本では「リナックス」と呼ばれています。 主にWebサーバやDNSサーバ、イントラネットなどのサーバ用OSとして利用されています。 上位500のスーパーコンピュータの90%以上はLinuxを使用しています。 携帯端末用のプラットフォームAndroidは、Linuxカーネル上に構築されています。

UTF-8

UTF-8は8ビット符号単位の文字符号化形式及び文字符号化スキームです。データ交換方式、ファイル形式としては、一般的にUTF-8が使われる傾向があります。

文字コード

文字コードとは、文字や記号をコンピュータ上で使用するために用いられるバイト表現を指します。

Mecab

Mecabは、オープンソースの形態素解析エンジンです。 言語、辞書、コーパスに依存しない汎用的な設計を基本方針としています。 Mecabの由来は、開発者の好物である和布蕪(めかぶ)から名づけられました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2021/07/23 11:10

前提・実現したいこと

現在、googleフォームのデータを使いやすい形に変換するプログラムを書いているのですが、以下のようなエラーが出ます。
調べている感じ日本語の文字コードが原因だと思うのですが、辞書自体はUTF8になっているので対処法が分かりません。
お手数ですが、どなたかわかる人ご対応お願いいたします。
環境はlinuxです。

発生している問題・エラーメッセージ

Traceback (most recent call last): File "form_answer.py", line 70, in <module> print(df) UnicodeEncodeError: 'utf-8' codec can't encode characters in position 36-37: surrogates not allowed

該当のソースコード

python

1#処理しやすい形式に変換 2def data_arrange(database): 3 answer=[] 4 m = MeCab.Tagger("mecabrc") 5 for item in range(1,len(database[0]),3): 6 node=m.parseToNode(database[0][item].strip() 7 while True: 8 fields=node.feature.split(",") 9 if fields[0]=="記号": 10 node=node.next 11 for hikensya in range(1,len(database)): 12 text=[] 13 text.append("['"+node.surface+"']") 14 for kind in range(3): 15 number=database[hikensya][item+kind] 16 text.append(number[0]) 17 answer.append(text) 18 break 19 node=node.next 20 answer_pd=pd.DataFrame(answer) 21 return answer_pd 22 23 24 25if __name__ == '__main__': 26 # フォルダ中のパスを取得 27 target_dir=sys.argv[1] 28 DATA_PATH = "./"+ target_dir +"/" 29 All_Files = glob.glob('{}*.csv'.format(DATA_PATH)) 30# フォルダ中の全csvをマージ 31 list = [] 32 for file in All_Files: 33 csvfile=open(file,"r",encoding="utf-8") 34 pre_df=csv.reader(csvfile) 35 database=[row for row in pre_df] 36 answer=data_arrange(database) 37 list.append(answer) 38 df = pd.concat(list,sort=False) 39 print(df)

試したこと

mecabのバージョンを確認しました。
filename: /usr/lib/arm-linux-gnueabihf/mecab/dic/mecab-ipadic-neologd/sys.dic
version: 102
charset: UTF8
type: 0
size: 4668394
left size: 1316
right size: 1316

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

quickquip

2021/07/24 00:05

Pythonのバージョンはなんでしょう?
quickquip

2021/07/24 03:18

print('\U0002000b') などとしたら同じエラーになるのでしょうか。 print(ord(str(df)[36])) print(ord(str(df)[37])) などと、36-37番目の文字のコードポイントを確認すると何が入っているんでしょう。
guest

回答2

0

自己解決

あの後いろいろ模索した結果
m.parse("")
を書き加えればうまく動きました。
原理はよく分かりません。
回答・修正依頼を行ってくださった皆様方本当にありがとうございました。
心より感謝致します。

投稿2021/07/24 05:04

camellia0216

総合スコア1

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

エラーメッセージのとおりで、サロゲートペアはサポートしていないからです。

辞書から以下のサイトの文字を削除してください。

サロゲートペア - 闘うITエンジニアの覚え書き

投稿2021/07/23 11:32

ppaul

総合スコア24666

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問