質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.46%
Google Colaboratory

Google Colaboratoryとは、無償のJupyterノートブック環境。教育や研究機関の機械学習の普及のためのGoogleの研究プロジェクトです。PythonやNumpyといった機械学習で要する大方の環境がすでに構築されており、コードの記述・実行、解析の保存・共有などが可能です。

Q&A

解決済

1回答

1042閲覧

日本語文章の多値分類が出来ません

tomokosu21226

総合スコア1

Google Colaboratory

Google Colaboratoryとは、無償のJupyterノートブック環境。教育や研究機関の機械学習の普及のためのGoogleの研究プロジェクトです。PythonやNumpyといった機械学習で要する大方の環境がすでに構築されており、コードの記述・実行、解析の保存・共有などが可能です。

0グッド

0クリップ

投稿2021/12/03 11:53

前提・実現したいこと

ここに質問の内容を詳しく書いてください。

BERTを用いて、日本語文章の多値分類を行う。というサイトを見ながらプログラミングを作成していたのですが、ファインチューニングの段階でエラーが出てしまい困っています。

発生している問題・エラーメッセージ

エラーメッセージ

WARNING:tensorflow:From /content/drive/MyDrive/bert/livedoor_news/bert/optimization.py:87: The name tf.train.Optimizer is deprecated. Please use tf.compat.v1.train.Optimizer instead.

WARNING:tensorflow:From bert/run_classifier_livedoor.py:1020: The name tf.app.run is deprecated. Please use tf.compat.v1.app.run instead.

WARNING:tensorflow:From bert/run_classifier_livedoor.py:822: The name tf.logging.set_verbosity is deprecated. Please use tf.compat.v1.logging.set_verbosity instead.

W1201 13:18:15.632747 139849845663616 module_wrapper.py:139] From bert/run_classifier_livedoor.py:822: The name tf.logging.set_verbosity is deprecated. Please use tf.compat.v1.logging.set_verbosity instead.

WARNING:tensorflow:From bert/run_classifier_livedoor.py:822: The name tf.logging.INFO is deprecated. Please use tf.compat.v1.logging.INFO instead.

W1201 13:18:15.633023 139849845663616 module_wrapper.py:139] From bert/run_classifier_livedoor.py:822: The name tf.logging.INFO is deprecated. Please use tf.compat.v1.logging.INFO instead.

WARNING:tensorflow:From /content/drive/MyDrive/bert/livedoor_news/bert/modeling.py:93: The name tf.gfile.GFile is deprecated. Please use tf.io.gfile.GFile instead.

W1201 13:18:15.633701 139849845663616 module_wrapper.py:139] From /content/drive/MyDrive/bert/livedoor_news/bert/modeling.py:93: The name tf.gfile.GFile is deprecated. Please use tf.io.gfile.GFile instead.

WARNING:tensorflow:From bert/run_classifier_livedoor.py:847: The name tf.gfile.MakeDirs is deprecated. Please use tf.io.gfile.makedirs instead.

W1201 13:18:15.795585 139849845663616 module_wrapper.py:139] From bert/run_classifier_livedoor.py:847: The name tf.gfile.MakeDirs is deprecated. Please use tf.io.gfile.makedirs instead.

Traceback (most recent call last):
File "bert/run_classifier_livedoor.py", line 1020, in <module>
tf.app.run()
File "/tensorflow-1.15.2/python3.7/tensorflow_core/python/platform/app.py", line 40, in run
_run(main=main, argv=argv, flags_parser=_parse_flags_tolerate_undef)
File "/usr/local/lib/python3.7/dist-packages/absl/app.py", line 303, in run
_run_main(main, args)
File "/usr/local/lib/python3.7/dist-packages/absl/app.py", line 251, in _run_main
sys.exit(main(argv))
File "bert/run_classifier_livedoor.py", line 859, in main
vocab_file=FLAGS.vocab_file, do_lower_case=FLAGS.do_lower_case)
File "/content/drive/MyDrive/bert/livedoor_news/bert/tokenization.py", line 167, in init
self.jumanpp_tokenizer = JumanPPTokenizer()
NameError: name 'JumanPPTokenizer' is not defined

該当のソースコード

ソースコード

!python bert/run_classifier_livedoor.py
--task_name=livedoor
--do_train=true
--do_eval=true
--data_dir=./
--vocab_file=./Japanese_L-12_H-768_A-12_E-30_BPE/vocab.txt
--bert_config_file=./Japanese_L-12_H-768_A-12_E-30_BPE/bert_config.json
--init_checkpoint=./Japanese_L-12_H-768_A-12_E-30_BPE/bert_model.ckpt
--max_seq_length=128
--train_batch_size=32
--learning_rate=2e-5
--num_train_epochs=3.0
--output_dir=./tmp/livedoor_news_output_fine
--do_lower_case False

試したこと

ここに問題に対して試したことを記載してください。

補足情報(FW/ツールのバージョンなど)

ここにより詳細な情報を記載してください。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

jbpb0

2021/12/03 23:05

> BERTを用いて、日本語文章の多値分類を行う。というサイトを見ながら そういう場合は、質問にURLも書いてください > File "/content/drive/MyDrive/bert/livedoor_news/bert/tokenization.py", line 167, in init self.jumanpp_tokenizer = JumanPPTokenizer() NameError: name 'JumanPPTokenizer' is not defined 質問者さんが参考にしてる https://qiita.com/Yuu94/items/0e5cff226bd3cc8fb08c で、「内容を保存したColaboratory notebookを私のGitHubに公開しています」と紹介されてる https://github.com/Yuu94/bert-ja-maruchi-classification の「tokenization.pyhttps://github.com/Yuu94/bert-ja-maruchi-classification/blob/master/tokenization.py を見ると、406行目に「class JumanPPTokenizer(BasicTokenizer):」があります 「tokenization.py」以外も含めて、上記GitHubのコードを使ってますでしょうか?
guest

回答1

0

ベストアンサー

BERTの日本語事前学習済みモデルでテキスト埋め込みをやってみるを読んで、JumanPPTokenizerを定義してください。

投稿2021/12/03 12:11

ppaul

総合スコア24666

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

jbpb0

2021/12/03 23:25

質問者さんが参考にしてる記事のGitHubコードの「tokenization.pyhttps://github.com/Yuu94/bert-ja-maruchi-classification/blob/master/tokenization.py でも、406行目以降で定義されてます 記事中では、その定義を追加することに触れられて無いため、質問者さんが定義を追加し忘れてるのでしょう (質問者さんはGitHubコードを見てないのかも)
tomokosu21226

2021/12/05 07:01

返信ありがとうございます。お恥ずかしながらGitHubコードを参考に修正したら、何とか起動に成功しました。焦っていたという事もあり、乱雑な質問になってしまって申し訳ないです。ありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.46%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問