pythonの言語判定においてコードにエラーが生じた理由がわからない

誤作動を起こしている原因を知りたい

発生している問題・エラーメッセージ

line 27
y_train=['ja','en','th']　#学習用の答え
unvalid character in identifie

該当のソースコード

python
1import numpy as np
2from sklearn.naive_bayes import GaussianNB #アルゴリズム
3from sklearn.metrics import accuracy_score
4
5#Unicodeのコードポイント頻度測定
6def count_codePoint(str):
7    #Unicodeのコードポイントをアドレスとする配列を用意
8    counter=np.zeros(65535)
9    
10    for i in range(len(str)):
11        #各文字をUnidodeのコードポイントに変換
12        code_point=ord(str[i]) #一つずつ変換して処理する
13        if code_point>65535:
14            continue
15        #対応するアドレスの出現回数に1を足す
16        counter[code_point]+=1
17    #各要素を文字数で割って正規化
18    counter=counter/len(str) #?
19    return counter
20
21#学習用データの準備
22ja_str='これは日本語の文章です'
23en_str='This is English Sentences.'
24th_str='นี่เป็นประโยคภาษาญี่ปุ่น'
25
26x_train=[count_codePoint(ja_str),count_codePoint(en_str),count_codePoint(th_str)] #学習する教科書、参考書の問題
27y_train=['ja','en','th']　#学習用の答え
28
29#学習する
30clf=GausssianNB() #アルゴリズム生成
31clf.fit(x_train,y_train)
32
33#評価用のデータ
34ja_test_str='こんにちは'
35en_test_str='Hello'
36th_test_str='สวัสดี'
37
38x_test=[count_codePoint(ja_test_str),count_codePoint(en_test_str),count_codePoint(th_test_str)] #テスト用の問題
39y_test=['ja','en','th'] #テスト用の答え
40
41#評価する
42y_pred=clf.predict(x_test) #テスト用の問題から答えを予測する
43print(y_pred)
44print('正解率=',accuracy_score(y_test,y_pred)) #関数を使って(テスト用の答え,テスト用の答えの予想)という形で正解率を予測する
45

試したこと

何回か打ち直したが間違えているところが分からなかった

補足情報

python初心者で簡易な質問かもしれませんが回答よろしくお願いします！

行動規範の内容に同意します

回答1件

ベストアンサー

エラーメッセージは正確にコピペしてください。

処理系が^でエラーの箇所を示してくれていると思います（実行方法にもよりますが）。

python
1>>> y_train=['ja','en','th']　#学習用の答え
2  File "<stdin>", line 1
3    y_train=['ja','en','th']　#学習用の答え
4                            ^
5SyntaxError: invalid character in identifier
6