違う分野の二つのデータがあります。これを文の集合A,文の集合Bとします。
データの条件は以下です。
- リストデータは二つとも日本語の文
- 文と文の間には関係性はほぼない。
この二つのデータから、それぞれの文における特徴を抽出したいです。以下のような形を目指しています。
やりたいこと
スポーツウォッチ、独女通信を文章A、文章Bとして.
のようなことがしたいと考えています。
参考https://www.ogis-ri.co.jp/otc/hiroba/technical/similar-document-search/part6.html#fn6
### 参考文献と違うところ
上記がデータが長文であるのに対し、こちらは文なので、DocからParsedCorpusをうまく抽出することができていないのではないかと思っているのですが、この点について説明がいただけるとありがたいです。
あなたの回答
tips
プレビュー