GPT2のファインチューニングがエラーになる

前提

下記の記事を参考にGPT2を動かそうとしたのですがファインチューニングしようとしてもエラーがおきてしまいます。
1週間ほど前に同じ記事を参考に同じデータセットでファインチューニングしたのですがその時は正常に動きました。
また、該当のソースコード以前でエラーは起こっていません。
Pythonは始めたばかりで、色々と調べてみたのですが原因が全く分かりません。
一体どのような原因が考えられるでしょうか?
どうかよろしくお願いいたします。

gpt2-japaneseの使い方 (2) - GPT-2のファインチューニング

Japanese-BPEEncoderでfinetune.npzに変換すると書いてあったのでfinetune.npzを見てみたのですが下記のようになっていました。これは正常に変換できているのでしょうか？

PK

実現したいこと

GPT2のファインチューニングを正常に行いたい。

発生している問題

GPT2のファインチューニングがエラーでできない。

該当のソースコード・エラーコード

python
1!python run_finetune.py --base_model gpt2ja-small --dataset finetune.npz --run_name gpr2ja-finetune_run1

python
1Loading checkpoint gpt2ja-small/model-10412700
2Loading dataset...
3Training...
4Traceback (most recent call last):
5  File "run_finetune.py", line 250, in <module>
6    main()
7  File "run_finetune.py", line 225, in main
8    feed_dict=sample_feature())
9  File "run_finetune.py", line 170, in sample_feature
10    idx = global_chunk_index[global_chunk_step]
11IndexError: index 0 is out of bounds for axis 0 with size 0

退会済みユーザー

2022/06/09 21:16

https://github.com/tanreinama/text2text-japanese/issues/5 同じ症状かもしれません。確認ください。

ebisan

2022/06/10 04:11

https://github.com/tanreinama/Japanese-BPEEncoder こちらを使用しているので、おそらく違う症状だと思います。

退会済みユーザー

2022/06/10 10:26 編集

両方とも同じ作者のようです。同じ人が作っているとすれば、同じコードを使い回し、全体を同じ思想で作っている可能性が高いので、問題の根本も同じ可能性が高いです。ここに掲載されているのが一部のデータしかないので可能性の話です、が、かなり黒に近い灰色と思っています。まず、 IndexError: index 0 is out of bounds for axis 0 with size 0 は、「global_chunk_index」の長さがゼロなのに「一番初めのデータをよこせ」と言われてPythonがキレています。「Japanese-BPEEncoder」のコード中にglobal_chunk_indexがないのでこれも推測ですが、 https://github.com/tanreinama/text2text-japanese/blob/main/training.py のようなコードがどこかにあり、 global_chunks = [] for fn in glob.glob(args.dataset): のようなコードがあるのに、global_chunks がカラ、つまり、順当に見てargs.datasetがカラです。結論：datasetの引数が指定された後、どうやって読み込まれているか、どこかで初期化されてカラになっているかどうか追跡が必要です。

ebisan

2022/06/10 12:13

ありがとうございます。調べてみます。