現在、chainerによる自然言語処理をしています。
文章をMecabで分かち書きして、Word2vecでベクトル化しようとしていますが、単に分かち書きしただけでは、単語の基本形にならないようです。
テキスト:
"お会いできて嬉しかったです。"
分かち書き:
"お 会い でき て 嬉しかっ た です 。"
分析:
お オ お 接頭詞-名詞接続
会い アイ 会う 動詞-自立 五段・ワ行促音便 連用形
でき デキ できる 動詞-非自立 一段 連用形
て テ て 助詞-接続助詞
嬉しかっ ウレシカッ 嬉しい 形容詞-自立 形容詞・イ段 連用タ接続
た タ た 助動詞 特殊・タ 基本形
です デス です 助動詞 特殊・デス 基本形
。 。 。 記号-句点
EOS
分かち書きしただけでは、活用後の単語なので、「会い」と「会う」が同じ単語であるとは認識できないようです。
分かち書きした後は、基本形にしないとならないような気がしますが、どなたか詳しい方がいらっしゃいましたら、教えてください。
よろしくお願いします。
回答3件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/03/27 06:23
2019/03/27 08:55