前提・実現したいこと
BERTの公開されているPre-Trainedモデルを用いて学習を行いたいと考えています。
その際にTokenizerでMeCab+ipadic+Neologdを用いて形態素解析を行いたいのですが、
TokenizerにNeologdの辞書を用いているMeCabを読み込ませるにはどうしたら良いのでしょうか?
現状はpytorchのTransformersからcl-tohokuのPre-Trainedモデルを読み込ませて、BERTを使用しています。(辞書はipadicです。)
Tokenizerも同様のものを使用しているのですが、Neologdを用いている独自の辞書を使って分かち書きを行いたいと考えており、教えて頂きたいです。
該当のソースコード
import transformers from transformers import BertJapaneseTokenizer, BertModel pretrained = 'cl-tohoku/bert-base-japanese-whole-word-masking' tokenizer = BertJapaneseTokenizer.from_pretrained(pretrained)
補足情報(FW/ツールのバージョンなど)
transformers : 4.3.3
pytorch : 1.4.0
mecab-python3 : 1.0.3
あなたの回答
tips
プレビュー