テキストをベクトル化して遊ぶ。

前提・実現したいこと

テキスト分析。janomeで日本語を分かち書きにして、Word2Vecに読み込ませたい。

発生している問題・エラーメッセージ

File "<ipython-input-15-f1a093934710>", line 17
    if hinsi in ["動詞", "形容詞", "動詞", "記号"]：
                                         ^
SyntaxError: invalid character in identifier

該当のソースコード

python
1# 形態素解析
2t = Tokenizer()
3results = []
4
5# テキストを1行ずつ処理する
6lines = txt.split("\r_n")
7for line in lines:
8    s = line
9    s = s.replace("|", "")
10    tokens = t.tokenize(s) #形態素解析
11    
12    #　必要な語句だけを対象とする
13    r = []
14    for tok in tokens:
15        if tok.base_form == "*":
16            w = tok.surface
17        else:
18            w = tok.base_form
19        ps = tok.part_of_speech # 品詞情報
20        hinsi = ps.split(",")[0]
21        if hinsi in ["動詞", "形容詞", "動詞", "記号"]：
22        　　r.append(w)
23    rl = (" ".join(r)).strip()
24    results.append(rl)
25    print(rl) # 画面に分かち書きした行を表示
26
27# 書き込み先テキストを開く
28wakati_file = "AbeSpeech.wakati"
29with open(wakati_file, "w", encoding="utf-8") as fp:
30    fp.write("\n".join(results))
31
32# Word2vecでモデルを作成
33data = word2vec.LineSentence(wakati_file)
34model = word2vec.Word2Vec(data, size=200, window=10, hs=1, min_count=2, sg=1)
35model.save("AbeSpeech.model")
36print("ok")
37

試したこと

ググったけどどこが構文エラーなのかよくわからない。

stdio

2019/01/31 08:59

「ググったけど」ならどこをググったのか書いてください。あと構文エラーならエラー文出てるはずですよ。

YZYZ

2019/01/31 09:58

おっしゃるとおりですね。ググったのは他に似たような作業をしているコードが無いかなと思い、探してみた感じです。結局、参考にしている本のコードを書くときにエラーが有っただけでした、、、！コメントしてくださりありがとうございました！

行動規範の内容に同意します

回答1件

ベストアンサー

構文エラーに関しては

python
1        if hinsi in ["動詞", "形容詞", "動詞", "記号"]：
2        　　r.append(w)
3

でr.append(w)の前が全角の空白になっているからでは

追記です。
if hinsi in ["動詞", "形容詞", "動詞", "記号"]：の「:」も全角ですよ！

投稿2019/01/31 09:04

編集2019/01/31 09:13

ikapy

総合スコア1167

YZYZ

2019/01/31 09:56

ご指摘頂いた点を直したら分かち書きできました!ありがとうございます。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！