pythonを用いた機械学習でURLの良性と悪性判定を行おうと考えいます.
以下のようなコードで,エラーが発生します.どなたか解決策などありませんか?
pythonコード
1import pandas as pd 2from sklearn.model_selection import train_test_split 3from sklearn.svm import SVC 4from sklearn.metrics import accuracy_score 5 6# 読み込み --- (*1) 7analysisresults_data = pd.read_csv("urldata.csv", encoding="utf-8") 8 9# ラベルと入力データに分離する --- (*2) 10y = analysisresults_data.loc[:,"Result"] 11x = analysisresults_data.loc[:,["URl"]] 12 13# 学習用とテスト用に分離する --- (*3) 14x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3, train_size = 0.7, shuffle = True) 15 16# 学習する --- (*4) 17clf = SVC() 18clf.fit(x_train, y_train) 19 20# 評価する --- (*5) 21y_pred = clf.predict(x_test) 22print("正解率 = " , accuracy_score(y_test, y_pred))
エラーが以下の通りです.
Traceback (most recent call last):
File "pandas_libs\parsers.pyx", line 847, in pandas._libs.parsers.TextReader.read
File "pandas_libs\parsers.pyx", line 862, in pandas._libs.parsers.TextReader._read_low_memory
File "pandas_libs\parsers.pyx", line 918, in pandas._libs.parsers.TextReader._read_rows
File "pandas_libs\parsers.pyx", line 905, in pandas._libs.parsers.TextReader._tokenize_rows
File "pandas_libs\parsers.pyx", line 2034, in pandas._libs.parsers.raise_parser_error
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 76272: invalid start byte
回答2件
あなたの回答
tips
プレビュー