前提・実現したいこと
GoogleColabでjanomeを使った形態素解析に挑戦しています。
今回ユーザー辞書を読み込ませてデフォルトの場合と比較したのですが両者に差が見えず、
ユーザー定義を反映させる方法についてアドバイス頂きたく投稿しました。
よろしくお願いいたします。
該当のソースコード
from janome.tokenizer import Tokenizer
text="再生可能エネルギー"
★ユーザー辞書なし
tokenizer = Tokenizer()
words=[]
tokens = tokenizer.tokenize(text)
for word in tokens:
words.append(word.surface)
print(" ".join(words)) # 再生 可能 エネルギー
★ユーザー辞書あり
tokenizer = Tokenizer('userdic3.0.csv', udic_enc='utf8')
words=[]
tokens = tokenizer.tokenize(text)
for word in tokens:
words.append(word.surface)
print(" ".join(words)) # 再生 可能 エネルギー
試したこと
userdic3.0.csvの内容:
再生可能エネルギー -1 -1 1000 名詞 一般 * * * * 再生可能エネルギー * *
13列のcsvファイルを読み込ませ、その際のエラーはなかったのですが、出力に差が見られませんでした。
「1000」の数値を変えても出力に変化はありませんでした。
また、調べても同じような方法でうまくいっている例しか出てこず、
エラーがないのに何がおかしいのか理解できていない状況です。
補足情報(FW/ツールのバージョンなど)
以下のサイトと同じコードをコピペして使いました。
https://eneprog.blogspot.com/2018/08/janomepython.html
###※追記(2021/4/4)
★userdic3.0.csvの生成過程
import pandas as pd
df = pd.read_csv('userdic2.4.csv') # userdic2.4.csvからuserdic3.0.csvを作成
df.to_csv("userdic3.0.csv", sep=",",index=False, header=False, encoding='utf8')
★userdic3.0.csvの確認
with open('userdic3.0.csv', 'r', encoding='utf-8') as f:
print(f.read()) # 再生可能エネルギー,-1,-1,1000,名詞 一般,,,,,再生可能エネルギー,,,
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2021/04/04 09:59
2021/04/04 10:15