rinnaのjapanese modelを実装したい

『AIが高度な日本語文章を自動で生成　りんなのrinna社、日本語GPT-2/BERTの事前学習モデルを開発　GitHub等で公開(2021年8月27日 By ロボスタ編集部)』(https://robotstart.info/2021/08/27/rinna-gpt2.html)にて紹介されているモデルの実装を行いたいと考えております。

しかし,git_hub(https://github.com/rinnakk/japanese-pretrained-models)を見てもいまいち実装がわからない状況にあります。

そのため,概要に関して教えていただきたいと考えています。
(具体的に読むべき箇所を列挙する等でも参考になるため,教えていただきたいです。)

行いたい実装としては,記事に紹介されている文章生成モデルです。

具体的には下のようなものです。(イメージ)

python
1input="我々は宇宙人であるが、私からすればあなたが宇宙人だ。他人の"
2
3output=machine(input)
4
5#予測されるoutputの例
6output="我々は宇宙人であるが、私からすればあなたが宇宙人だ。他人の
7        視点に立って物事を考えると、その価値基準は異なってくる。これ
8　　　　　は宇宙人との交流では当たり前であるが、地球人同士でも、同様に
9　　　　　考えることができる。それは暗黙的に存在するがなかなか顕在的に
10　　　　　ならない部分がある。人々は、これを顕在化させることを考えるが
11　　　　　、それには限りがある。そのため、顕在化されていない状態である
12　　　　　ことを、意識的に理解していることが他人の理解に繋がる最善的な
13　　　　　方法であると私は考える。"

抽象的になり申し訳ございませんが,実装等に関して,教えていただけると幸いです。

行動規範の内容に同意します

回答1件

ベストアンサー

具体的な処理についてはまだ理解できてませんが一旦テキストが生成できたので参考になればと思います。

python
1from transformers import T5Tokenizer, GPT2LMHeadModel
2
3tokenizer = T5Tokenizer.from_pretrained("rinna/japanese-gpt2-small")
4tokenizer.do_lower_case = True  # due to some bug of tokenizer config loading
5
6model = GPT2LMHeadModel.from_pretrained("rinna/japanese-gpt2-small")
7
8# 入力テキスト
9input = "生命、宇宙、そして万物についての究極の疑問の答えは"
10
11# 入力テキストをトークンにデコード
12input_token = tokenizer.encode(input, return_tensors='pt')
13
14# 入力トークンから出力のトークン生成
15outputs = model.generate(input_token, max_length=200, do_sample=True, top_k=50,
16                         temperature=0.7)
17
18# トークンをテキストにデコード
19text = tokenizer.decode(outputs[0], skip_special_tokens=True)
20print(text)

投稿2021/08/27 21:02

__horito

総合スコア364

unser

2021/08/28 02:59 編集

ありがとうございます。上記コードに関してgoogle_colab上で実装しようとしたのですが, !pip3 install transformers !pip3 install SentencePiece をしたのちに実装したところ, ``` --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-6-da0632fb50fb> in <module>() 2 3 tokenizer = T5Tokenizer.from_pretrained("rinna/japanese-gpt2-small") ----> 4 tokenizer.do_lower_case = True # due to some bug of tokenizer config loading 5 6 model = GPT2LMHeadModel.from_pretrained("rinna/japanese-gpt2-small") AttributeError: 'NoneType' object has no attribute 'do_lower_case' ``` とエラーが起きてしまいました。実行環境の詳細に関して教えていただけると幸いです。

__horito

2021/08/28 12:06

OS ：Mac11.5.2 Python: 3.9.0 Package Version ----------------------- --------- absl-py 0.13.0 astunparse 1.6.3 cachetools 4.2.2 certifi 2021.5.30 charset-normalizer 2.0.4 clang 5.0 click 8.0.1 filelock 3.0.12 flatbuffers 1.12 fugashi 1.1.1 gast 0.4.0 google-auth 1.35.0 google-auth-oauthlib 0.4.5 google-pasta 0.2.0 grpcio 1.39.0 h5py 3.1.0 huggingface-hub 0.0.12 idna 3.2 joblib 1.0.1 keras 2.6.0 Keras-Preprocessing 1.1.2 Markdown 3.3.4 numpy 1.19.5 oauthlib 3.1.1 opt-einsum 3.3.0 packaging 21.0 pip 21.2.4 plac 1.3.3 protobuf 3.17.3 pyasn1 0.4.8 pyasn1-modules 0.2.8 pyparsing 2.4.7 PyYAML 5.4.1 regex 2021.8.28 requests 2.26.0 requests-oauthlib 1.3.0 rsa 4.7.2 sacremoses 0.0.45 sentencepiece 0.1.96 setuptools 49.2.1 six 1.15.0 tensorboard 2.6.0 tensorboard-data-server 0.6.1 tensorboard-plugin-wit 1.8.0 tensorflow 2.6.0 tensorflow-estimator 2.6.0 termcolor 1.1.0 tokenizers 0.10.3 torch 1.9.0 tqdm 4.62.2 transformers 4.9.2 typing-extensions 3.7.4.3 unidic 1.0.3 urllib3 1.26.6 wasabi 0.8.2 Werkzeug 2.0.1 wheel 0.37.0 wrapt 1.12.1 ちなみにgoogle_colabでも実行できました。ライブラリに関しては以下の参考にしてインストールしました。 https://github.com/rinnakk/japanese-pretrained-models/blob/master/requirements.txt !pip install torch>=1.7.1 !pip install transformers>=4.5.0 !pip install tensorflow !pip install tensorboard !pip install sentencepiece !pip install tqdm !pip install fugashi !pip install unidic

unser

2021/08/30 00:25

ありがとうございます????‍♂️ 実装できました！

行動規範の内容に同意します