質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.37%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

Q&A

解決済

2回答

283閲覧

sentence bert ダウンロード仕方

otetsu04310431

総合スコア8

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

1グッド

0クリップ

投稿2024/09/17 13:31

編集2024/09/17 16:25

イメージ説明

[1]
model = SentenceBertJapanese("sonoisa/sentence-bert-base-ja-mean-tokens")

上記のようなコードを記述すると下記のようなエラーが発生します

The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization.
The tokenizer class you load from this checkpoint is 'BertTokenizer'.
The class this function is called from is 'BertJapaneseTokenizer'

下記のサイトを参考にしています。
https://qiita.com/sonoisa/items/1df94d0a98cd4f209051

対処法またはsentence bert の日本語のダウンロードのコードを教えていただきたいです。

melian👍を押しています

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

melian

2024/09/17 15:00

> !pip install -q transformers==4.7.0 fugashi ipadic ここで、-q オプションを削除して実行してみてください。 !pip install transformers==4.7.0 fugashi ipadic これでエラーメッセージが表示される様になるので、エラーの原因が判るかもしれません。
melian

2024/09/17 15:08

ちなみに、transformers==4.7.0 としていますが、バージョン 4.7.0 である必要はありますか? 現時点での transformers のバージョンは 4.44.2 ですが、こちらであればコンパイル済のバイナリが配布されていますのでインストールすることができるかと思います。
quickquip

2024/09/17 15:23

Google Colabなら 4.42.4 がインストール済みなので、インストールの必要すらないかと思います(が、Google Colab でやっているのかどうかすら書かれてない)(「このページを参考にやっています」は質問者さんが何をやっているのかの説明にはならない)
otetsu04310431

2024/09/17 16:24

実装はジュピターノートブックでしてます! バージョンを指定したら、一つ目のエラーは改善されました。 二つ目のエラーは改善されません。 追加で画像添付してます。
melian

2024/09/17 18:09 編集

> 二つ目のエラーは改善されません。 こちらについて、transformers の GitHub リポジトリに以下の issue が投稿されています。エラーではなく、ワーニングの様で実質的な問題は無さそうに読めます。 Misleading warning when using DPRContextEncoderTokenizer · Issue #12926 · huggingface/transformers https://github.com/huggingface/transformers/issues/12926 どうしても気になる場合は、AutoTokenizer を利用するとよいかと思います。 ※ 以下のコードでは全角スペースでインデントを付けています(コメント欄では行頭のスペースやタブが潰れてしまうため) from transformers import BertJapaneseTokenizer, BertModel, AutoTokenizer import torch class SentenceBertJapanese:   def __init__(self, model_name_or_path, device=None):     # self.tokenizer = BertJapaneseTokenizer.from_pretrained(model_name_or_path)     self.tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)     self.model = BertModel.from_pretrained(model_name_or_path)     self.model.eval()
otetsu04310431

2024/09/18 04:15

いつも回答ありがとうございます! そうなんですね理解しました!
otetsu04310431

2024/09/19 04:54

ベストアンサーに選びたいのでよろしければ、同じ内容を回答欄に投稿いただけますでしょうか?
guest

回答2

0

ベストアンサー

二つ目のエラーは改善されません。

こちらについて、transformers の GitHub リポジトリに以下の issue が投稿されています。エラーではなく、ワーニングの様で実質的な問題は無さそうに読めます。

Misleading warning when using DPRContextEncoderTokenizer · Issue #12926 · huggingface/transformers

どうしても気になる場合は、AutoTokenizer を利用するとよいかと思います。

python

1from transformers import BertJapaneseTokenizer, BertModel, AutoTokenizer 2import torch 3 4class SentenceBertJapanese: 5 def __init__(self, model_name_or_path, device=None): 6 # self.tokenizer = BertJapaneseTokenizer.from_pretrained(model_name_or_path) 7 self.tokenizer = AutoTokenizer.from_pretrained(model_name_or_path) 8 self.model = BertModel.from_pretrained(model_name_or_path) 9 self.model.eval()

投稿2024/09/19 05:15

melian

総合スコア20574

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

[香車]東上☆Aho(英帆)☆海美「
https://qiita.com/en2enzo2/items/92c82287c72d1fbd35c9
【入門】Sentence BERT - Qiita(ja)

上記によると

!pip install sentence-transformers

となっているようですが ?

投稿2024/09/17 13:55

umimi

総合スコア504

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.37%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問