【BERT】ネット接続がない環境での事前学習モデルのダウンロードについて

前提

社内のネット接続ができない環境でtransformers（"cl-tohoku/bert-base-japanese"）を用いてNLPをしたいのですが、エラーが発生します。
ネットを接続させた別の環境ではエラーは発生せず、問題なく予測タスクまで行うことができるコードになっています。

実現したいこと

MODEL_NAME = "cl-tohoku/bert-base-japanese"
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)

この tokenizer を使用してfine-turningを行い予測タスクを解きます。

発生している問題・エラーメッセージ

----> 6   self.torkenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
（中略）
ValueError:  connection error, and we cannot find the requested files in hte cached path. Please try again or make sure your Internet connection is on.

試したこと

事前学習のモデルを何かしらの形でsaveして、そのファイルをダウンロードすればネットが接続されていない環境でも事前学習済みモデルを使用できるのかと思いましたが、調べた限りその方法もわからずです、、

環境

windows10
Python 3.9.12
jupyter-lab

情報の不足等ありましたら教えて頂けますと幸いです。
よろしくお願いいたします。

jbpb0

2022/08/26 11:42

> ネットを接続させた別の環境ではエラーは発生せず、問題なく予測タスクまで行うことができるのパソコンにはダウンロードされた事前学習モデルがあるはずなので、それをネット接続ができないパソコンに持ってくれば大丈夫だと思います

mamoru-max

2022/08/26 13:11 編集

ありがとうございます、ネット接続ができないPCに持ってくる際のものと持ってくる手段については、ものはここでいうtokenizer( = AutoTokenizer.from_pretrained(MODEL_NAME))で、これを何かしらの形式のファイルに保存した後、ネット接続ができないPCにその保存したファイル移動して読み込む、よろしいでしょうか？もしそのようにでしたら、大変申し訳ないのですが、ファイルの形式（hoge.binなど）や簡単なコード等を教えて頂けますと非常に助かります。

jbpb0

2022/08/27 17:43 編集

https://zenn.dev/ttya16/articles/3c51001f9e6d4b0ecc0b の「Transformerモデルのインスタンス作成」の「その他」によると、ダウンロードしたものは「~/.cache/huggingface/transformers」にキャッシュされて、2回目以降はそれが読み込まれるようなので、ネット接続してるパソコンのキャッシュのディレクトリにあるファイルから更新日時が該当してそうなものを探して、それらをネット接続してないパソコンのキャッシュのディレクトリにコピーしたら、うまくいくかもしれませんあるいは、ネット接続してるパソコンで、 https://huggingface.co/cl-tohoku の使いたいモデルのファイルをダウンロードして、それをネット接続してないパソコンのどこかにコピーして、コピーした場所を https://tkkm.tokyo/post-559/#outline__3 の「解決方法」に書かれてるようにして「AutoTokenizer.from_pretrained()」で指定すると、読み込めると思います

jbpb0

2022/08/31 05:45

解決したのなら、TakaiYさんの回答をベストアンサーにして、「解決済」にしてください

mamoru-max

2022/09/01 00:07

（warningが出ていますし）これで解決かは疑問ですが、解決済みにしますね。

jbpb0

2022/09/01 00:22

同じ入力データに対して、 > ネットを接続させた別の環境ではエラーは発生せず、問題なく予測タスクまで行うことができると同じ予測結果になるのですよね？

mamoru-max

2022/09/01 05:01

いえ、それがほぼすべての各データで同じような予測値が算出されるようになり、何が原因なのかを現在調べています。環境の影響でGPUが使用できず予測にも学習にも日単位で時間がかかるため確認に時間がかかっています。

jbpb0

2022/09/01 07:20

あ、そうなんですか回答のコメントに、予測結果が正しくないみたいなことが書かれてなかったので、てっきりうまくいったのかと思い、「解決済」にしてくださいと書きましたが、その状態だと、まだ解決してませんね失礼しました

jbpb0

2022/09/01 08:09

上のコメントにも書きましたが、ネット接続してるパソコンで https://huggingface.co/cl-tohoku の使いたいモデルのファイルをダウンロードして、それをネット接続してないパソコンのどこかにコピーして、コピーした場所を https://tkkm.tokyo/post-559/#outline__3 の「解決方法」に書かれてるようにして「AutoTokenizer.from_pretrained()」で指定しても、ダメでしょうか？

行動規範の内容に同意します

回答1件

ベストアンサー

調べてみるとこの情報がヒットしました。

https://stackoverflow.com/questions/62472238/autotokenizer-from-pretrained-fails-to-load-locally-saved-pretrained-tokenizer

読み込めるところで、save_pretrained()メソッドでディレクトリに保存してあれば、.from_pretrained()でそのディレクトリを指定すれば読み込めますよ。ということらしい。
ただ、もしかしたら、下のように、configを別途取得して保存しておかないとだめかもしれないみたい。

python
1tokenizer = AutoTokenizer.from_pretrained('distilroberta-base')
2config = AutoConfig.from_pretrained('distilroberta-base')
3
4tokenizer.save_pretrained('YOURPATH')
5config.save_pretrained('YOURPATH')
6
7tokenizer = AutoTokenizer.from_pretrained('YOURPATH')

投稿2022/08/26 14:43

TakaiY

総合スコア14307

mamoru-max

2022/08/29 00:31

誠にありがとうございます。 configのところで解決できずにいましたので大変助かりました。加えて ```Python from transformers import AutoTokenizer, AutoConfig, AutoModel MODEL_NAME = "cl-tohoku/bert-base-japanese" tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME) config = AutoConfig.from_pretrained(MODEL_NAME) pre_model = AutoModel.from_pretrained(MODEL_NAME) # 保存 dir_name = 'premodel' tokenizer.save_pretrained(dir_name) config.save_pretrained(dir_name) pre_model.save_pretrained(dir_name) ``` とすると、こののち必要なconfig.jsonとpytorch_model.binが作成されました。これをした後に ```Python self.tokenizer = AutoTokenizer.from_pretrained("premodel") self.config = AutoConfig.from_pretrained('./premodel/') self.bert = AutoModel.from_pretrained('premodel', config=self.config) ``` これで一旦学習が動きました。この「pytorch_model.bin」と「config.json」は下のURLにもあり、これをダウンロードして「remodel」に入れることでも動きました（これ正しいのかは分かりませんが、、）。 https://huggingface.co/cl-tohoku/bert-base-japanese/tree/main

行動規範の内容に同意します