質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.46%
深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

PyTorch

PyTorchは、オープンソースのPython向けの機械学習ライブラリ。Facebookの人工知能研究グループが開発を主導しています。強力なGPUサポートを備えたテンソル計算、テープベースの自動微分による柔軟なニューラルネットワークの記述が可能です。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

2322閲覧

rinnaのjapanese modelを実装したい

unser

総合スコア58

深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

PyTorch

PyTorchは、オープンソースのPython向けの機械学習ライブラリ。Facebookの人工知能研究グループが開発を主導しています。強力なGPUサポートを備えたテンソル計算、テープベースの自動微分による柔軟なニューラルネットワークの記述が可能です。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

1グッド

0クリップ

投稿2021/08/27 11:45

『AIが高度な日本語文章を自動で生成 りんなのrinna社、日本語GPT-2/BERTの事前学習モデルを開発 GitHub等で公開(2021年8月27日 By ロボスタ編集部)』(https://robotstart.info/2021/08/27/rinna-gpt2.html)にて紹介されているモデルの実装を行いたいと考えております。

しかし,git_hub(https://github.com/rinnakk/japanese-pretrained-models)を見てもいまいち実装がわからない状況にあります。

そのため,概要に関して教えていただきたいと考えています。
(具体的に読むべき箇所を列挙する等でも参考になるため,教えていただきたいです。)

行いたい実装としては,記事に紹介されている文章生成モデルです。

具体的には下のようなものです。(イメージ)

python

1input="我々は宇宙人であるが、私からすればあなたが宇宙人だ。他人の" 2 3output=machine(input) 4 5#予測されるoutputの例 6output="我々は宇宙人であるが、私からすればあなたが宇宙人だ。他人の 7 視点に立って物事を考えると、その価値基準は異なってくる。これ 8     は宇宙人との交流では当たり前であるが、地球人同士でも、同様に 9     考えることができる。それは暗黙的に存在するがなかなか顕在的に 10     ならない部分がある。人々は、これを顕在化させることを考えるが 11     、それには限りがある。そのため、顕在化されていない状態である 12     ことを、意識的に理解していることが他人の理解に繋がる最善的な 13     方法であると私は考える。"

抽象的になり申し訳ございませんが,実装等に関して,教えていただけると幸いです。

tkytkytky👍を押しています

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

具体的な処理についてはまだ理解できてませんが一旦テキストが生成できたので参考になればと思います。

python

1from transformers import T5Tokenizer, GPT2LMHeadModel 2 3tokenizer = T5Tokenizer.from_pretrained("rinna/japanese-gpt2-small") 4tokenizer.do_lower_case = True # due to some bug of tokenizer config loading 5 6model = GPT2LMHeadModel.from_pretrained("rinna/japanese-gpt2-small") 7 8# 入力テキスト 9input = "生命、宇宙、そして万物についての究極の疑問の答えは" 10 11# 入力テキストをトークンにデコード 12input_token = tokenizer.encode(input, return_tensors='pt') 13 14# 入力トークンから出力のトークン生成 15outputs = model.generate(input_token, max_length=200, do_sample=True, top_k=50, 16 temperature=0.7) 17 18# トークンをテキストにデコード 19text = tokenizer.decode(outputs[0], skip_special_tokens=True) 20print(text)

投稿2021/08/27 21:02

holy_

総合スコア364

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

unser

2021/08/28 02:59 編集

ありがとうございます。 上記コードに関してgoogle_colab上で実装しようとしたのですが, !pip3 install transformers !pip3 install SentencePiece をしたのちに実装したところ, ``` --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-6-da0632fb50fb> in <module>() 2 3 tokenizer = T5Tokenizer.from_pretrained("rinna/japanese-gpt2-small") ----> 4 tokenizer.do_lower_case = True # due to some bug of tokenizer config loading 5 6 model = GPT2LMHeadModel.from_pretrained("rinna/japanese-gpt2-small") AttributeError: 'NoneType' object has no attribute 'do_lower_case' ``` とエラーが起きてしまいました。 実行環境の詳細に関して教えていただけると幸いです。
holy_

2021/08/28 12:06

OS :Mac11.5.2 Python: 3.9.0 Package Version ----------------------- --------- absl-py 0.13.0 astunparse 1.6.3 cachetools 4.2.2 certifi 2021.5.30 charset-normalizer 2.0.4 clang 5.0 click 8.0.1 filelock 3.0.12 flatbuffers 1.12 fugashi 1.1.1 gast 0.4.0 google-auth 1.35.0 google-auth-oauthlib 0.4.5 google-pasta 0.2.0 grpcio 1.39.0 h5py 3.1.0 huggingface-hub 0.0.12 idna 3.2 joblib 1.0.1 keras 2.6.0 Keras-Preprocessing 1.1.2 Markdown 3.3.4 numpy 1.19.5 oauthlib 3.1.1 opt-einsum 3.3.0 packaging 21.0 pip 21.2.4 plac 1.3.3 protobuf 3.17.3 pyasn1 0.4.8 pyasn1-modules 0.2.8 pyparsing 2.4.7 PyYAML 5.4.1 regex 2021.8.28 requests 2.26.0 requests-oauthlib 1.3.0 rsa 4.7.2 sacremoses 0.0.45 sentencepiece 0.1.96 setuptools 49.2.1 six 1.15.0 tensorboard 2.6.0 tensorboard-data-server 0.6.1 tensorboard-plugin-wit 1.8.0 tensorflow 2.6.0 tensorflow-estimator 2.6.0 termcolor 1.1.0 tokenizers 0.10.3 torch 1.9.0 tqdm 4.62.2 transformers 4.9.2 typing-extensions 3.7.4.3 unidic 1.0.3 urllib3 1.26.6 wasabi 0.8.2 Werkzeug 2.0.1 wheel 0.37.0 wrapt 1.12.1 ちなみにgoogle_colabでも実行できました。 ライブラリに関しては以下の参考にしてインストールしました。 https://github.com/rinnakk/japanese-pretrained-models/blob/master/requirements.txt !pip install torch>=1.7.1 !pip install transformers>=4.5.0 !pip install tensorflow !pip install tensorboard !pip install sentencepiece !pip install tqdm !pip install fugashi !pip install unidic
unser

2021/08/30 00:25

ありがとうございます????‍♂️ 実装できました!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.46%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問