前提・実現したいこと
2つ以上の文章が繋がった文字列を、1文毎に分離させる方法/ツールを調べています。
入力:「これはテストです。これもテストです。」
↓
出力:「これはテストです。」「これもテストです。」
上記の様な文章だと句点で区切れば問題無いですが、句点が無い場合も対応したいです。
入力:「これはテストですこれもテストです」
↓
出力:「これはテストです」「これもテストです」
試したこと
cabochaやKNP等の係り受け解析ツールを使用して係り受けの繋がりから、文章が離れていると判断できないか検討しましたが、
「これはテストですこれもテストです。」
で実行すると、1つ目の「これは」が最後の「テストです」に繋がってしまったり、
また間に句点があってもそこで分離されず、同様に句点をまたいで繋がってしまい、うまくいきません。
形態素解析,係り受け解析以外で、上記用途で使用できそうな方法/ツールが何かありますでしょうか。
開発言語は問いません。
宜しくお願い致します。
回答1件
あなたの回答
tips
プレビュー