自然言語処理で長文を扱う方法

BERTなどの自然言語処理モデルでは、入力文書の最大トークン数（文字数）が決まっていて、数百語程度の文書しか一度に入力できないと思います。
このようなモデルを用いて数万語を超えるような長文の要約をしたいのですが、可能でしょうか？
元の文章を小さく区切って、それぞれの小文書で要約を生成し、それを結合して要約の要約を作ればいいでしょうか？

ppaul

2022/01/10 11:48

それぞれの小文書で要約を生成し、それを結合して要約の要約を作ればいいでしょうか？とのことですが、それを繰り返してWikipedia全文の要約を作ってみると、どういう要約になると思いますか？

koroyama56

2022/01/10 12:12

もしうまくいけば「この文書では様々な事柄を解説している」みたいな要約が生成されるかもしれませんが、十中八九支離滅裂になってしまうのではないかと予想します。現在の自然言語処理では一定以上の長さの文書を扱うタスクは不可能として扱われていないのでしょうか？

ppaul

2022/01/10 12:37

コンピュータによる自然言語処理でなく人間が行った要約であっても、3行に要約された古事記とか、3行に要約された日本憲法とか、3行に要約された奥の細道とか、3行に要約された一般相対性理論とか、3行に要約されたPythonの公式ドキュメントを読むことに意味があるとは思いません。要約して意味のあるドュメントは、コンピュータでやるかどうかにかかわらず、あまり長くないものなのではないでしょうか。

koroyama56

2022/01/10 12:53

なるほど、興味深い例をたくさん挙げていただいてありがとうございます。確かに、相対性理論の論文を3行に要約してしまえば、理論を細かく追って真偽を確かめ、さらなる発展を追求する研究者にとっては意味のないものとなってしまうでしょうし、特定の問題で詰まっているプログラマーは3行のPythonドキュメントを読んでも解決しないと思います。しかし、「その文書がどういうものであるか」ということを簡潔にまとめることは有用だと思います。例えば、相対性理論は「アインシュタインが考えた物理学の理論で、光速度不変の原理をもとに、時間と空間が相対的であることを示した理論」と簡単にまとめられると思います。これは理論を追う研究者にとっては無意味ですが、相対性理論を知らない人にどういうものなのかを教えるためには有用だと思います。ただ、このような文書の説明が文書の本文のみから生成できるかはかなり怪しく、ほかの文書から解説記事をとってきた方がはるかに簡単で精度も高そうなので、あまり重視されていないのかなと思いました。つまり、私はどんなに長い文章でも短くまとめることは有用だと思っていますが、本文から自然言語処理で行うのは現実的でないのだなと納得しました。