質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

Q&A

解決済

1回答

2501閲覧

【BERT】ネット接続がない環境での事前学習モデルのダウンロードについて

mamoru-max

総合スコア2

深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

0グッド

0クリップ

投稿2022/08/26 11:06

前提

社内のネット接続ができない環境でtransformers("cl-tohoku/bert-base-japanese")を用いてNLPをしたいのですが、エラーが発生します。
ネットを接続させた別の環境ではエラーは発生せず、問題なく予測タスクまで行うことができるコードになっています。

実現したいこと

MODEL_NAME = "cl-tohoku/bert-base-japanese" from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)

この tokenizer を使用してfine-turningを行い予測タスクを解きます。

発生している問題・エラーメッセージ

----> 6 self.torkenizer = AutoTokenizer.from_pretrained(MODEL_NAME) (中略) ValueError: connection error, and we cannot find the requested files in hte cached path. Please try again or make sure your Internet connection is on.

試したこと

事前学習のモデルを何かしらの形でsaveして、そのファイルをダウンロードすればネットが接続されていない環境でも事前学習済みモデルを使用できるのかと思いましたが、調べた限りその方法もわからずです、、

環境

windows10
Python 3.9.12
jupyter-lab

情報の不足等ありましたら教えて頂けますと幸いです。
よろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

jbpb0

2022/08/26 11:42

> ネットを接続させた別の環境ではエラーは発生せず、問題なく予測タスクまで行うことができる のパソコンにはダウンロードされた事前学習モデルがあるはずなので、それをネット接続ができないパソコンに持ってくれば大丈夫だと思います
mamoru-max

2022/08/26 13:11 編集

ありがとうございます、 ネット接続ができないPCに持ってくる際のものと持ってくる手段については、 ものはここでいうtokenizer( = AutoTokenizer.from_pretrained(MODEL_NAME))で、これを何かしらの形式のファイルに保存した後、ネット接続ができないPCにその保存したファイル移動して読み込む、よろしいでしょうか? もしそのようにでしたら、大変申し訳ないのですが、ファイルの形式(hoge.binなど)や簡単なコード等を教えて頂けますと非常に助かります。
jbpb0

2022/08/27 17:43 編集

https://zenn.dev/ttya16/articles/3c51001f9e6d4b0ecc0b の「Transformerモデルのインスタンス作成」の「その他」によると、ダウンロードしたものは「~/.cache/huggingface/transformers」にキャッシュされて、2回目以降はそれが読み込まれるようなので、ネット接続してるパソコンのキャッシュのディレクトリにあるファイルから更新日時が該当してそうなものを探して、それらをネット接続してないパソコンのキャッシュのディレクトリにコピーしたら、うまくいくかもしれません あるいは、ネット接続してるパソコンで、 https://huggingface.co/cl-tohoku の使いたいモデルのファイルをダウンロードして、それをネット接続してないパソコンのどこかにコピーして、コピーした場所を https://tkkm.tokyo/post-559/#outline__3 の「解決方法」に書かれてるようにして「AutoTokenizer.from_pretrained()」で指定すると、読み込めると思います
jbpb0

2022/08/31 05:45

解決したのなら、TakaiYさんの回答をベストアンサーにして、「解決済」にしてください
mamoru-max

2022/09/01 00:07

(warningが出ていますし)これで解決かは疑問ですが、解決済みにしますね。
jbpb0

2022/09/01 00:22

同じ入力データに対して、 > ネットを接続させた別の環境ではエラーは発生せず、問題なく予測タスクまで行うことができる と同じ予測結果になるのですよね?
mamoru-max

2022/09/01 05:01

いえ、それがほぼすべての各データで同じような予測値が算出されるようになり、何が原因なのかを現在調べています。環境の影響でGPUが使用できず予測にも学習にも日単位で時間がかかるため確認に時間がかかっています。
jbpb0

2022/09/01 07:20

あ、そうなんですか 回答のコメントに、予測結果が正しくないみたいなことが書かれてなかったので、てっきりうまくいったのかと思い、「解決済」にしてくださいと書きましたが、その状態だと、まだ解決してませんね 失礼しました
jbpb0

2022/09/01 08:09

上のコメントにも書きましたが、ネット接続してるパソコンで https://huggingface.co/cl-tohoku の使いたいモデルのファイルをダウンロードして、それをネット接続してないパソコンのどこかにコピーして、コピーした場所を https://tkkm.tokyo/post-559/#outline__3 の「解決方法」に書かれてるようにして「AutoTokenizer.from_pretrained()」で指定しても、ダメでしょうか?
guest

回答1

0

ベストアンサー

調べてみるとこの情報がヒットしました。

https://stackoverflow.com/questions/62472238/autotokenizer-from-pretrained-fails-to-load-locally-saved-pretrained-tokenizer

読み込めるところで、save_pretrained()メソッドでディレクトリに保存してあれば、.from_pretrained()でそのディレクトリを指定すれば読み込めますよ。 ということらしい。
ただ、もしかしたら、下のように、configを別途取得して保存しておかないとだめかもしれないみたい。

python

1tokenizer = AutoTokenizer.from_pretrained('distilroberta-base') 2config = AutoConfig.from_pretrained('distilroberta-base') 3 4tokenizer.save_pretrained('YOURPATH') 5config.save_pretrained('YOURPATH') 6 7tokenizer = AutoTokenizer.from_pretrained('YOURPATH')

投稿2022/08/26 14:43

TakaiY

総合スコア12745

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

mamoru-max

2022/08/29 00:31

誠にありがとうございます。 configのところで解決できずにいましたので大変助かりました。 加えて ```Python from transformers import AutoTokenizer, AutoConfig, AutoModel MODEL_NAME = "cl-tohoku/bert-base-japanese" tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME) config = AutoConfig.from_pretrained(MODEL_NAME) pre_model = AutoModel.from_pretrained(MODEL_NAME) # 保存 dir_name = 'premodel' tokenizer.save_pretrained(dir_name) config.save_pretrained(dir_name) pre_model.save_pretrained(dir_name) ``` とすると、こののち必要なconfig.jsonとpytorch_model.binが作成されました。 これをした後に ```Python self.tokenizer = AutoTokenizer.from_pretrained("premodel") self.config = AutoConfig.from_pretrained('./premodel/') self.bert = AutoModel.from_pretrained('premodel', config=self.config) ``` これで一旦学習が動きました。 この「pytorch_model.bin」と「config.json」は下のURLにもあり、これをダウンロードして「remodel」に入れることでも動きました(これ正しいのかは分かりませんが、、)。 https://huggingface.co/cl-tohoku/bert-base-japanese/tree/main
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問