質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.47%
自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

Q&A

解決済

1回答

409閲覧

日本語で2つ以上の文章がつながった文字列を、1文に分離させたい

colt

総合スコア45

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

0グッド

0クリップ

投稿2019/01/10 08:34

前提・実現したいこと

2つ以上の文章が繋がった文字列を、1文毎に分離させる方法/ツールを調べています。

入力:「これはテストです。これもテストです。」

出力:「これはテストです。」「これもテストです。」

上記の様な文章だと句点で区切れば問題無いですが、句点が無い場合も対応したいです。

入力:「これはテストですこれもテストです」

出力:「これはテストです」「これもテストです」

試したこと

cabochaやKNP等の係り受け解析ツールを使用して係り受けの繋がりから、文章が離れていると判断できないか検討しましたが、

「これはテストですこれもテストです。」

で実行すると、1つ目の「これは」が最後の「テストです」に繋がってしまったり、
また間に句点があってもそこで分離されず、同様に句点をまたいで繋がってしまい、うまくいきません。


形態素解析,係り受け解析以外で、上記用途で使用できそうな方法/ツールが何かありますでしょうか。
開発言語は問いません。
宜しくお願い致します。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

maisumakun

2019/01/10 08:46

人間でも、「今日は雨が降る天気ではない。」と「今日は雨が降る。天気ではない。」の識別は難しいと思いますが、このようなものについてはどうお考えでしょうか。
colt

2019/01/10 09:22

必ずしも正しい結果が得られる事は考えていません。ある程度判断できればいいと考えています。 上にある例文の他、 「これはリンゴです。明日は晴れだ。」 「1.これはリンゴです2.明日は晴れだ」 の様な、間に区切り(句点など)や明らかに意味が1と2で繋がっていない場合に判断ができればいいです。 現状CaboChaやKNP等での係り受け解析ツールでは、こういった場合でも これは→晴れだ の様に、繋がってしまいます。
guest

回答1

0

ベストアンサー

構文解析はあてにならないけど、形態素解析まではとりあえず無事にできていると仮定して頑張って解いていくことになると思います。

頑張ればルールベースでも書けるかもしれませんが、実際問題としてきついので系列ラベリング系の手法でやることになるでしょう。句点で区切って作った文を適当に結合して学習データにすれば良いので、学習データを作るのには苦労しなさそうです。

性能が出るかは別。

投稿2019/01/10 09:08

hayataka2049

総合スコア30933

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

hayataka2049

2019/01/10 09:23

>形態素解析まではとりあえず無事にできていると仮定して たとえば「今日行ったのは東京。オリンピックが楽しみです。」みたいなのが「今日行ったのは東京オリンピックが楽しみです」と連結されて「今日 行っ た の は 東京オリンピック が 楽しみ です」とされてしまう懸念は当然あります。妥協できなければ形態素解析の中に手を突っ込んでごちゃごちゃやるしかありません。
colt

2019/01/14 04:06

ありがとうございます。やはり既存のツールで何かしらを判定基準とするのは厳しい感じですね。 自然言語処理を何年も研究されている大学の方々の様に、何年もかけることはできない為、 自然言語処理以外の別の判断基準を模索していきます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.47%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問