質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.51%

  • Python 3.x

    9858questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • CSV

    854questions

    CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

  • Mecab

    230questions

    Mecabは、オープンソースの形態素解析エンジンです。 言語、辞書、コーパスに依存しない汎用的な設計を基本方針としています。 Mecabの由来は、開発者の好物である和布蕪(めかぶ)から名づけられました。

  • Unicode

    74questions

    Unicodeはエンコーディングの標準規格です。1つの文字コード体系で多国語の表現を可能にすることを目指して作られています。

Python3でCSVを読み込み形態素解析するとUnicodeDecodeErrorになる

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 345

yu-imu

score 9

現在SQLインジェクションの研究を行っており
Pythonで形態素解析を行い辞書を作ろうと考えているのですが、
encodeing周りのエラーがわからず解決できません。

mecab = MeCab.Tagger('mecabrc')


def tokenize(text):
    node = mecab.parseToNode(text)
    while node:
        if node.feature.split(',')[0] == '名詞':
            yield node.surface.lower()
        node = node.next


def get_words(contents):
    ret = []
    # ここのfor文のループでエラーが発生する
    for content in contents:
        ret.append(get_words_main(content))
    return ret


def get_words_main(content):
    return [token for token in tokenize(content)]

if __name__ == '__main__':
    column = []
    num = []
    with open('word.csv',encoding="utf8", errors='ignore') as f:
        reader = csv.reader(f)

        for row in reader:
            column.append(row[0])
            num.append(row[1])

    data_train_s, data_test_s, label_train_s, label_test_s = train_test_split(column, num, test_size=0.3)
    #この部分でコケる
    words = get_words(data_train_s)


utf-8で保存してある読み込み用のcsvファイルです。

onLoading {Function},0
onSuccess {Function},0
onAfterRender {Function},0
print(len([s for s in l if s.endswith('e')])),0
select* from database where id = 1;,0
Graph minors IV Widths of trees and well quasi ordering,0
"1' UNION ALL SELECT CONCAT(0x716b6b6a71,(CASE WHEN (EXISTS(SELECT random FROM performance_schema.events_waits_summary_by_instance)) THEN 1 ELSE 0 END),0x716a717a71),NULL-- hYEx",1
"1' UNION ALL SELECT CONCAT(0x716b6b6a71,(CASE WHEN (EXISTS(SELECT aTEC FROM zsTX)) THEN 1 ELSE 0 END),0x716a717a71),NULL-- utMa",1
"1' AND (SELECT 2551 FROM(SELECT COUNT(*),CONCAT(0x716b6b6a71,(SELECT REPEAT(0x38,128)),0x716a717a71,FLOOR(RAND(0)*2))x FROM INFORMATION_SCHEMA.PLUGINS GROUP BY x)a) AND 'uDRn'='uDRn",1
"1' UNION ALL SELECT CONCAT(0x716b6b6a71,(CASE WHEN (EXISTS(SELECT creditcard_id FROM performance_schema.events_waits_summary_by_instance)) THEN 1 ELSE 0 END),0x716a717a71),NULL-- mwJp",1

ファイルを実行した結果以下のようなエラーが数回に一回発生します。

例1) UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc9 in position 0: invalid continuation byte
例2) UnicodeDecodeError: 'utf-8' codec can't decode byte 0x90 in position 0: invalid start byte

お答えしてほしい点として

1 UnicodeDecodeErrorが起きてしまっている原因箇所
2 encode問題の対処の仕方をお答えしてほしいです。

補足質問への回答
1 エラー発生時のdata_train_sの中身について
["print(len([s for s in l if s.endswith('e')]))", 'onSuccess {Function}', "1' UNION ALL SELECT CONCAT(0x716b6b6a71,(CASE WHEN (EXISTS(SELECT creditcard_id FROM performance_schema.events_waits_summary_by_instance)) THEN 1 ELSE 0 END),0x716a717a71),NULL-- mwJp", 'onAfterRender {Function}', "1' UNION ALL SELECT CONCAT(0x716b6b6a71,(CASE WHEN (EXISTS(SELECT aTEC FROM zsTX)) THEN 1 ELSE 0 END),0x716a717a71),NULL-- utMa", 'select* from database where id = 1;']

2 Tracebackの中身
Traceback (most recent call last):
File "svm.py", line 59, in <module>
words = get_words(data_train_s)
File "svm.py", line 30, in get_words
ret.append(get_words_main(content))
File "svm.py", line 35, in get_words_main
return [token for token in tokenize(content)]
File "svm.py", line 35, in <listcomp>
return [token for token in tokenize(content)]
File "svm.py", line 22, in tokenize
yield node.surface.lower()
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb6 in position 0: invalid start byte

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • can110

    2018/11/16 13:25

    エラー発生時の「data_train_s」の中身を提示ください。またエラーはTraceback全文を記載ください。

    キャンセル

  • yu-imu

    2018/11/16 14:18

    回答致しました。

    キャンセル

回答 1

checkベストアンサー

+1

1 UnicodeDecodeErrorが起きてしまっている原因箇所

Tracebackからtokenize関数内のyield node.surface.lower()、名詞の単語を小文字に変換している処理で発生しています。

2 encode問題の対処の仕方をお答えしてほしいです。

しかしながら例示された入力文字列には英数字、記号しか含まれていないので本来このエラーは発生することはないと考えられます。
当方環境にて以下の再現コードを実行しましたが、やはりエラーは発生しません。
まずはyieldの手前にprintを置いてみて、エラー発生時の名詞の単語を特定してみてはいかがでしょうか?

あと気になったのですが、英文(SQL文)の解析にMeCabを使っているようですが、英語用の辞書を利用されていますか?
もし日本語辞書を利用していると正しく形態素解析できないので。

import MeCab
mecab = MeCab.Tagger('mecabrc')

def tokenize(text):
    node = mecab.parseToNode(text)
    while node:
        if node.feature.split(',')[0] == '名詞':
            # print(node.surface,node.feature)  # 何が入っているか確認してみては?
            yield node.surface.lower()
        node = node.next


def get_words(contents):
    ret = []
    # ここのfor文のループでエラーが発生する
    for content in contents:
        ret.append(get_words_main(content))
    return ret


def get_words_main(content):
    return [token for token in tokenize(content)]

if __name__ == '__main__':
    """
    column = []
    num = []
    with open('word.csv',encoding="utf8", errors='ignore') as f:
        reader = csv.reader(f)

        for row in reader:
            column.append(row[0])
            num.append(row[1])

    data_train_s, data_test_s, label_train_s, label_test_s = train_test_split(column, num, test_size=0.3)
    """
    # ↑は発生エラーとは無関係なのでコメントアウト

    data_train_s = ["print(len([s for s in l if s.endswith('e')]))", 'onSuccess {Function}', "1' UNION ALL SELECT CONCAT(0x716b6b6a71,(CASE WHEN (EXISTS(SELECT creditcard_id FROM performance_schema.events_waits_summary_by_instance)) THEN 1 ELSE 0 END),0x716a717a71),NULL-- mwJp", 'onAfterRender {Function}', "1' UNION ALL SELECT CONCAT(0x716b6b6a71,(CASE WHEN (EXISTS(SELECT aTEC FROM zsTX)) THEN 1 ELSE 0 END),0x716a717a71),NULL-- utMa", 'select* from database where id = 1;']
    words = get_words(data_train_s)
    print(words)

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

同じタグがついた質問を見る

  • Python 3.x

    9858questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • CSV

    854questions

    CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

  • Mecab

    230questions

    Mecabは、オープンソースの形態素解析エンジンです。 言語、辞書、コーパスに依存しない汎用的な設計を基本方針としています。 Mecabの由来は、開発者の好物である和布蕪(めかぶ)から名づけられました。

  • Unicode

    74questions

    Unicodeはエンコーディングの標準規格です。1つの文字コード体系で多国語の表現を可能にすることを目指して作られています。