Python3.6系のTokenization関数を使用しているのですが、
こちらのFullTokenizerの第一引数にあるvocab_fileは事前に何か作成しておく必要のあるファイルを指しているのでしょうか?
FullTokenizer(vocab_file=vocab_path)のvocab_pathは先に記述している変数vocab_pathと照合している
のはわかるのですが、vocab_fileと=関係にすることで何を意図としているのかが分かりません。
import tokenization import codecs import numpy as np vocab_path = "/home/ubuntu/ernie/ERNIE1.0/vocab.txt" max_seq_length = 128 filename = "dev" file0 = "/home/ubuntu/ernie/%s.tsv" % filename f0 = codecs.open(file0, "r", "utf-8") lines = f0.readlines() f0.close() len_file = len(lines) count = np.zeros([len_file]) count0 = np.zeros([len_file]) my_tokenizer = tokenization.FullTokenizer(vocab_file=vocab_path)
エラーは解消しましたか? そうであればコード先頭のファイル名も削除しておく方がいいでしょう。
ありがとうございます。
最初に記述したエラーに関してはtensorflowのバージョンの違いによるモジュールの表記の仕方が問題だと思うので、個人的に気になる今回の質問に切り替えさせて頂きました。
基本的な文法の理解不足だと思うので、個人でも調べております。
エラーはスクリプトのファイル名の問題ですよ。
一旦確認いたします。
すみません。
間違えている名称のファイルは上記コードを記載しているtokenization.pyでよろしかったでしょうか?
ファイル名がtokenization.pyであるせいでエラーになってますよ。
既存のモジュール名とファイル名が衝突していたのですね。
ファイル名を変更した所、エラーの一部は解消されました。
ありがとうございます。
あなたの回答
tips
プレビュー