前提・実現したいこと
テキスト分析。janomeで日本語を分かち書きにして、Word2Vecに読み込ませたい。
発生している問題・エラーメッセージ
File "<ipython-input-15-f1a093934710>", line 17 if hinsi in ["動詞", "形容詞", "動詞", "記号"]: ^ SyntaxError: invalid character in identifier
該当のソースコード
python
1# 形態素解析 2t = Tokenizer() 3results = [] 4 5# テキストを1行ずつ処理する 6lines = txt.split("\r_n") 7for line in lines: 8 s = line 9 s = s.replace("|", "") 10 tokens = t.tokenize(s) #形態素解析 11 12 # 必要な語句だけを対象とする 13 r = [] 14 for tok in tokens: 15 if tok.base_form == "*": 16 w = tok.surface 17 else: 18 w = tok.base_form 19 ps = tok.part_of_speech # 品詞情報 20 hinsi = ps.split(",")[0] 21 if hinsi in ["動詞", "形容詞", "動詞", "記号"]: 22 r.append(w) 23 rl = (" ".join(r)).strip() 24 results.append(rl) 25 print(rl) # 画面に分かち書きした行を表示 26 27# 書き込み先テキストを開く 28wakati_file = "AbeSpeech.wakati" 29with open(wakati_file, "w", encoding="utf-8") as fp: 30 fp.write("\n".join(results)) 31 32# Word2vecでモデルを作成 33data = word2vec.LineSentence(wakati_file) 34model = word2vec.Word2Vec(data, size=200, window=10, hs=1, min_count=2, sg=1) 35model.save("AbeSpeech.model") 36print("ok") 37
試したこと
ググったけどどこが構文エラーなのかよくわからない。
回答1件
あなたの回答
tips
プレビュー