質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.46%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

Q&A

解決済

2回答

919閲覧

テキストの前処理中にエラーが出る

cunwe

総合スコア65

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

0グッド

0クリップ

投稿2021/09/04 06:36

編集2021/09/05 12:02

こちらの記事を見ながら中国語の文章の形態素解析を試みています。そこで記事内の#コーパスを前処理するにあるコードを書いてる時にエラーが起きました。エディタはGoogle Colabを使っております。

from operator import itemgetter from itertools import chain import numpy as np import pandas as pd import jieba from nltk.corpus import stopwords from sklearn.feature_extraction.text import TfidfVectorizer import matplotlib.pyplot as plt from PIL import Image from wordcloud import WordCloud, ImageColorGenerator from progressbar import progressbar # コーパスを読み込む df = pd.read_csv('drive/My Drive/Colab Notebooks/HSK_text.csv') corpus = df.Listenning_Script print(corpus.head(260)) # 今回は英語を含んでないため、中国語のstop wordsだけ読み込む stopwords = pd.read_csv('drive/My Drive/Colab Notebooks/stop_words.txt', header=None)[0].tolist() # ユーザー定義単語は一旦割愛 # コーパスを前処理する def preprocess_text(text): tokens = jieba.cut(text) lower_alpha = [t.lower() for t in tokens if t.isalpha()] no_stops = [t for t in lower_alpha if t not in set(stopwords)] return ','.join(no_stops) corpus_processed = corpus.apply(preprocess_text)

lower_alpha = [t.lower() for t in tokens if t.isalpha()]に波線が引かれるのですが、エラー内容が表示されませんでした。同じように前処理をしてるこちらのような記事などを参考にしたりしたのですが原因がわかりませんでした。

追記:ppaul樣より波線はエラーではないと教えていただいたため、エラーが出た箇所を提示しますと

AttributeError Traceback (most recent call last) <ipython-input-31-90f2e95cf399> in <module>() 31 return ','.join(no_stops) 32 ---> 33 corpus_processed = corpus.apply(preprocess_text) /usr/local/lib/python3.7/dist-packages/pandas/core/series.py in apply(self, func, convert_dtype, args, **kwds) 4211 else: 4212 values = self.astype(object)._values -> 4213 mapped = lib.map_infer(values, f, convert=convert_dtype) 4214 4215 if len(mapped) and isinstance(mapped[0], Series): pandas/_libs/lib.pyx in pandas._libs.lib.map_infer() <ipython-input-7-ee03f1307bb0> in preprocess_text(text) 27 def preprocess_text(text): 28 tokens = jieba.cut(text) ---> 29 lower_alpha = [t.lower() for t in tokens if t.isalpha()] 30 no_stops = [t for t in lower_alpha if t not in set(stopwords)] 31 return ','.join(no_stops) <ipython-input-7-ee03f1307bb0> in <listcomp>(.0) 27 def preprocess_text(text): 28 tokens = jieba.cut(text) ---> 29 lower_alpha = [t.lower() for t in tokens if t.isalpha()] 30 no_stops = [t for t in lower_alpha if t not in set(stopwords)] 31 return ','.join(no_stops) /usr/local/lib/python3.7/dist-packages/jieba/__init__.py in cut(self, sentence, cut_all, HMM, use_paddle) 298 """ 299 is_paddle_installed = check_paddle_install['is_paddle_installed'] --> 300 sentence = strdecode(sentence) 301 if use_paddle and is_paddle_installed: 302 # if sentence is null, it will raise core exception in paddle. /usr/local/lib/python3.7/dist-packages/jieba/_compat.py in strdecode(sentence) 77 if not isinstance(sentence, text_type): 78 try: ---> 79 sentence = sentence.decode('utf-8') 80 except UnicodeDecodeError: 81 sentence = sentence.decode('gbk', 'ignore') AttributeError: 'float' object has no attribute 'decode'

AttributeError: 'float' object has no attribute 'encode'という同じようなエラーを解決されてる質問を見つけたのですが、今回はどう直せばよろしいでしょうか?
HSK_test.csvに関しましては、Listenning_Scriptカラムに中国語が入ってるような形になります。
イメージ説明
知見をお持ちの方、よろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

ppaul

2021/09/04 06:59

波線は、エラーではないので、気にしなくても良いと思います。 こういう質問の場合は、使っているエディタを明記しないと詳しいことは誰にも答えられないでしょう。 質問を編集して追加することをお勧めします。
cunwe

2021/09/04 07:00

ppaul様、ご指摘いただきありがとうございます。追記いたします。
guest

回答2

0

自己解決

中国のサイト当たってたら解決方法が見つかりました。型を明示しなくてはいけないようです。
https://www.cnblogs.com/yifanrensheng/p/14175402.html

投稿2021/09/05 14:40

cunwe

総合スコア65

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

全体の中でどのように preprocess_text を使用されているか分かりますでしょうか?

手元で回した限りでは、特に問題は無さそうでした。破線というのはIDEなどのエディタ上のエラーでしょうか?

python:

1import jieba 2stopwords = ['test1', 'test2'] 3 4 5def preprocess_text(text): 6 tokens = jieba.cut(text) 7 lower_alpha = [t.lower() for t in tokens if t.isalpha()] 8 no_stops = [t for t in lower_alpha if t not in set(stopwords)] 9 10 return ','.join(no_stops) 11 12 13if __name__ == '__main__': 14 chinese_text = '你好再见' 15 print(preprocess_text(text=chinese_text))

投稿2021/09/04 07:06

編集2021/09/04 07:08
izuna385

総合スコア53

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

cunwe

2021/09/04 08:16

ご回答いただきありがとうございます。私のpreprocess_textが行っていることの認識としては、「自分がstopwordsに指定した単語に出会うまで止まることなく舐めて文字がある限り、文字列をトークナイズ(文節を区切る)する」ですがこの認識に間違えがある感じでしょうか?また、質問文に追記させていただきましたが、問題はその後のcorpus_processed = corpus.apply(preprocess_text)のようです。。
cunwe

2021/09/04 14:20 編集

.
cunwe

2021/09/04 14:20

デモのコードを添付してくださりありがとうございます。また、情報に不足があり申し訳ございません。HSK_text.csvについて情報を追記いたしました。「,」や「?」をstop_wordsに含めてないからかなと考えて含めてみたりしましたがダメでした。。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.46%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問