質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

Q&A

0回答

953閲覧

自然言語処理で長文を扱う方法

koroyama56

総合スコア0

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

0グッド

0クリップ

投稿2022/01/10 10:52

BERTなどの自然言語処理モデルでは、入力文書の最大トークン数(文字数)が決まっていて、数百語程度の文書しか一度に入力できないと思います。
このようなモデルを用いて数万語を超えるような長文の要約をしたいのですが、可能でしょうか?
元の文章を小さく区切って、それぞれの小文書で要約を生成し、それを結合して要約の要約を作ればいいでしょうか?

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

ppaul

2022/01/10 11:48

それぞれの小文書で要約を生成し、それを結合して要約の要約を作ればいいでしょうか? とのことですが、 それを繰り返してWikipedia全文の要約を作ってみると、どういう要約になると思いますか?
koroyama56

2022/01/10 12:12

もしうまくいけば「この文書では様々な事柄を解説している」みたいな要約が生成されるかもしれませんが、十中八九支離滅裂になってしまうのではないかと予想します。 現在の自然言語処理では一定以上の長さの文書を扱うタスクは不可能として扱われていないのでしょうか?
ppaul

2022/01/10 12:37

コンピュータによる自然言語処理でなく人間が行った要約であっても、3行に要約された古事記とか、3行に要約された日本憲法とか、3行に要約された奥の細道とか、3行に要約された一般相対性理論とか、3行に要約されたPythonの公式ドキュメントを読むことに意味があるとは思いません。 要約して意味のあるドュメントは、コンピュータでやるかどうかにかかわらず、あまり長くないものなのではないでしょうか。
koroyama56

2022/01/10 12:53

なるほど、興味深い例をたくさん挙げていただいてありがとうございます。 確かに、相対性理論の論文を3行に要約してしまえば、理論を細かく追って真偽を確かめ、さらなる発展を追求する研究者にとっては意味のないものとなってしまうでしょうし、特定の問題で詰まっているプログラマーは3行のPythonドキュメントを読んでも解決しないと思います。 しかし、「その文書がどういうものであるか」ということを簡潔にまとめることは有用だと思います。 例えば、相対性理論は「アインシュタインが考えた物理学の理論で、光速度不変の原理をもとに、時間と空間が相対的であることを示した理論」と簡単にまとめられると思います。これは理論を追う研究者にとっては無意味ですが、相対性理論を知らない人にどういうものなのかを教えるためには有用だと思います。 ただ、このような文書の説明が文書の本文のみから生成できるかはかなり怪しく、ほかの文書から解説記事をとってきた方がはるかに簡単で精度も高そうなので、あまり重視されていないのかなと思いました。 つまり、私はどんなに長い文章でも短くまとめることは有用だと思っていますが、本文から自然言語処理で行うのは現実的でないのだなと納得しました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問