質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Google Colaboratory

Google Colaboratoryとは、無償のJupyterノートブック環境。教育や研究機関の機械学習の普及のためのGoogleの研究プロジェクトです。PythonやNumpyといった機械学習で要する大方の環境がすでに構築されており、コードの記述・実行、解析の保存・共有などが可能です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

1125閲覧

GPT2のファインチューニングがエラーになる

ebisan

総合スコア16

Google Colaboratory

Google Colaboratoryとは、無償のJupyterノートブック環境。教育や研究機関の機械学習の普及のためのGoogleの研究プロジェクトです。PythonやNumpyといった機械学習で要する大方の環境がすでに構築されており、コードの記述・実行、解析の保存・共有などが可能です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2022/06/09 14:33

編集2022/06/09 15:32

前提

下記の記事を参考にGPT2を動かそうとしたのですがファインチューニングしようとしてもエラーがおきてしまいます。
1週間ほど前に同じ記事を参考に同じデータセットでファインチューニングしたのですがその時は正常に動きました。
また、該当のソースコード以前でエラーは起こっていません。
Pythonは始めたばかりで、色々と調べてみたのですが原因が全く分かりません。
一体どのような原因が考えられるでしょうか?
どうかよろしくお願いいたします。

gpt2-japaneseの使い方 (2) - GPT-2のファインチューニング


Japanese-BPEEncoderでfinetune.npzに変換すると書いてあったのでfinetune.npzを見てみたのですが下記のようになっていました。これは正常に変換できているのでしょうか?

PK

実現したいこと

  • GPT2のファインチューニングを正常に行いたい。

発生している問題

  • GPT2のファインチューニングがエラーでできない。

該当のソースコード・エラーコード

python

1!python run_finetune.py --base_model gpt2ja-small --dataset finetune.npz --run_name gpr2ja-finetune_run1

python

1Loading checkpoint gpt2ja-small/model-10412700 2Loading dataset... 3Training... 4Traceback (most recent call last): 5 File "run_finetune.py", line 250, in <module> 6 main() 7 File "run_finetune.py", line 225, in main 8 feed_dict=sample_feature()) 9 File "run_finetune.py", line 170, in sample_feature 10 idx = global_chunk_index[global_chunk_step] 11IndexError: index 0 is out of bounds for axis 0 with size 0

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2022/06/10 10:26 編集

両方とも同じ作者のようです。同じ人が作っているとすれば、同じコードを使い回し、全体を同じ思想で作っている可能性が高いので、問題の根本も同じ可能性が高いです。ここに掲載されているのが一部のデータしかないので可能性の話です、が、かなり黒に近い灰色と思っています。 まず、 IndexError: index 0 is out of bounds for axis 0 with size 0 は、「global_chunk_index」の長さがゼロなのに「一番初めのデータをよこせ」と言われてPythonがキレています。 「Japanese-BPEEncoder」のコード中にglobal_chunk_indexがないのでこれも推測ですが、 https://github.com/tanreinama/text2text-japanese/blob/main/training.py のようなコードがどこかにあり、 global_chunks = [] for fn in glob.glob(args.dataset): のようなコードがあるのに、global_chunks がカラ、つまり、順当に見てargs.datasetがカラです。 結論:datasetの引数が指定された後、どうやって読み込まれているか、どこかで初期化されてカラになっているかどうか追跡が必要です。
ebisan

2022/06/10 12:13

ありがとうございます。調べてみます。
guest

回答1

0

自己解決

何故かわからないのですがエラーが治っていました。。。
何にも変更していませんので、しばらく時間をおけば治るのかも???

投稿2022/06/10 13:07

ebisan

総合スコア16

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問