自然言語処理の初学者です。興味本位でBERTに手を出しているのですが、BERTは512トークンで切られるということを最近知りました。みなさんはこの対策はどうなさっていますか?
使っているmodelはyoheikikutaさんが提供してくださっている学習済みの SentencePiece モデルと BERT モデルです。
どなたか教えていただければ幸いです。
どこかからダウンロードしてきた学習済みのモデルが512トークンで切っているということですか?
https://medium.com/lsc-psd/日本語bertで文章要約-要約マン-b5ce2f9f88c7
こちらで
BERTの入力長は固定の512トークンで 長文の文章を語句単位で512トークン以下に切って
とされています。
お疲れさまです、こちらまだ取り組まれていますでしょうか?
あなたの回答
tips
プレビュー