前提
ルビを取り除いた青空文庫の文章が書かれたファイル(corpus.txt)をもとに,
sentencepieceで単語に分割し、Albertで学習させている(モデル名:aozora_train)
このsentencepieceをMeCabで書き換えたい
調べたものの正直全然分からず、進まないので質問しました。
実現したいこと
sentencepieceのプログラム部分をMeCabで組み替えたい。
(sentencepieceは単語の意味を考慮せず、分割すると聞いたため)
発生している問題・エラーメッセージ
--model_prefix=aozora_train --character_coverage=0.9995 --vocab_size=32000 --pad_id=3 --add_dummy_prefix=False
の部分の書き換え方が分からない
該当のソースコード
変更したいコード
Python
1import sentencepiece as spm 2from transformers import AlbertTokenizer 3 4# ここをMeCabに変えたいです 5spm.SentencePieceTrainer.Train('--input=corpus.txt, --model_prefix=aozora_train --character_coverage=0.9995 --vocab_size=32000 --pad_id=3 --add_dummy_prefix=False') 6 7tokenizer = AlbertTokenizer.from_pretrained('aozora_train.model', keep_accents=True) 8・・・
変更後のコード
Python
1import MeCab 2from transformers import AlbertTokenizer 3 4wakati = [] 5with open("corpus.txt", 'r', encoding='utf-8') as f: 6 7 tagger = MeCab.Tagger("-Owakati") 8 for sentences in f: 9 sentence = sentences.rstrip() 10 sentence = tagger.parse(sentence) 11 for words in sentence.split(' '): 12 wakati.append(words) 13 14 15# --model_prefix=aozora_train --character_coverage=0.9995 --vocab_size=32000 --pad_id=3 --add_dummy_prefix=False 16# この上の部分をどう書けば良いのかご教授頂きたいです 17 18tokenizer = AlbertTokenizer.from_pretrained('aozora_train.model', keep_accents=True)
補足情報(FW/ツールのバージョンなど)
python3.10.4
あなたの回答
tips
プレビュー