回答率: 85.35%

質問するログイン新規登録

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

新規登録して質問してみよう

ただいま回答率: 85.35%

トップ Python 3.xに関する質問

Q&A

0回答

557閲覧

Python Tokenizationの引数に関して分からない表現があります。

総合スコア131

1グッド

1クリップ

投稿2020/03/15 03:11

編集2020/03/15 04:17

1

1

Python３.６系のTokenization関数を使用しているのですが、
こちらのFullTokenizerの第一引数にあるvocab_fileは事前に何か作成しておく必要のあるファイルを指しているのでしょうか？
FullTokenizer(vocab_file=vocab_path)のvocab_pathは先に記述している変数vocab_pathと照合している
のはわかるのですが、vocab_fileと＝関係にすることで何を意図としているのかが分かりません。

import tokenization 
import codecs
import numpy as np

vocab_path = "/home/ubuntu/ernie/ERNIE1.0/vocab.txt"
max_seq_length = 128

filename = "dev"
file0 = "/home/ubuntu/ernie/%s.tsv" % filename
f0 = codecs.open(file0, "r", "utf-8")
lines = f0.readlines()
f0.close()

len_file = len(lines)
count = np.zeros([len_file])
count0 = np.zeros([len_file])

my_tokenizer = tokenization.FullTokenizer(vocab_file=vocab_path)

2020/03/15 04:14 編集

エラーは解消しましたか? そうであればコード先頭のファイル名も削除しておく方がいいでしょう。

2020/03/15 04:19

ありがとうございます。最初に記述したエラーに関してはtensorflowのバージョンの違いによるモジュールの表記の仕方が問題だと思うので、個人的に気になる今回の質問に切り替えさせて頂きました。基本的な文法の理解不足だと思うので、個人でも調べております。

2020/03/15 04:43 編集

エラーはスクリプトのファイル名の問題ですよ。

2020/03/15 04:33

一旦確認いたします。

2020/03/15 05:39

すみません。間違えている名称のファイルは上記コードを記載しているtokenization.pyでよろしかったでしょうか？

2020/03/15 05:52

ファイル名がtokenization.pyであるせいでエラーになってますよ。

2020/03/15 06:20

既存のモジュール名とファイル名が衝突していたのですね。ファイル名を変更した所、エラーの一部は解消されました。ありがとうございます。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップ Python 3.xに関する質問

Python Tokenizationの引数に関して分からない表現があります。