質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

87.60%

Word2vecは必ずしも基本形でなくてもいいですか。

解決済

回答 3

投稿

  • 評価
  • クリップ 0
  • VIEW 987

score 47

現在、chainerによる自然言語処理をしています。
文章をMecabで分かち書きして、Word2vecでベクトル化しようとしていますが、単に分かち書きしただけでは、単語の基本形にならないようです。

テキスト:
"お会いできて嬉しかったです。"

分かち書き:
"お 会い でき て 嬉しかっ た です 。"

分析:
お    オ    お    接頭詞-名詞接続        
会い    アイ    会う    動詞-自立    五段・ワ行促音便    連用形
でき    デキ    できる    動詞-非自立    一段    連用形
て    テ    て    助詞-接続助詞        
嬉しかっ    ウレシカッ    嬉しい    形容詞-自立    形容詞・イ段    連用タ接続
た    タ    た    助動詞    特殊・タ    基本形
です    デス    です    助動詞    特殊・デス    基本形
。    。    。    記号-句点        
EOS

分かち書きしただけでは、活用後の単語なので、「会い」と「会う」が同じ単語であるとは認識できないようです。
分かち書きした後は、基本形にしないとならないような気がしますが、どなたか詳しい方がいらっしゃいましたら、教えてください。

よろしくお願いします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 3

checkベストアンサー

+1

特に基本形にする必要はありません。

http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/P11-4.pdf

タスクに依るので実験的に確かめる方がいいです。


追記

公開されている訓練済みコーパスは基本的に活用形で提供されています。
そうしないと生成系のタスクに使えないのです。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/03/27 15:23

    なるほど。,手のくわえられていないコーパスを手のくわえられたコーパ
    スすべてが正答率を上回る結果が示された。しかし、動詞と助動詞を基本形に変換したコーパスはあまり変わりがなかったということですね。とても興味深い結果です。とても参考になります。ありがとうございました。

    キャンセル

  • 2019/03/27 17:55

    つまり、目的によっては、コーパスに手を加えた方がいい場合があるが、文章を生成する場合には、手を加えることなく活用形で利用すべきであるというご意見ですね。

    キャンセル

+1

Word2vecは必ずしも基本形でなくてもいいですか。

状況によりけりですが、

  • 活用形ごとに単語が区別される。その方が活用形ごとに意味を捉えられる可能性もあるし、逆にそれぞれ別の単語とみなされる分だけ頻度が落ちて不利かもしれないし
  • 無駄に単語数が増える
  • 特定の単語を取り出して見てみたいというとき不便といえば不便(複数あったりすると)

基本形の分かち書きにしたければ、コマンドラインからmecabを叩いているならオプションで指定してください。

mecab --node-format="%f[6] " --bos-format="" --eos-format="\n" --unk-format="%m "

試しにいじってみたら↑でそれっぽくなりましたが、検証していないので公式ページや解説記事を見ながらいろいろ試してみてください。

https://taku910.github.io/mecab/format.html

https://qiita.com/hasoya/items/0561bb1481a648aa8e6e

https://qiita.com/SUZUKI_Masaya/items/1e31b65b92640e045a99

pythonから叩くのであれば、node.featureを分割して・・・とかやってもいいし、mecabのインスタンスを作る時点で上のようなオプションを渡しておく手もあります。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/03/27 13:00 編集

    そういえば基本形の位置とかって辞書依存なんでしたっけ。IPA辞書ならこれで動きますが、他の辞書だと動かないと思います。あとは基本形はあっても*で登録されているときは突っぱねたい・・・といったケースも考えられるので、python側でちゃんと処理した方が幸せかも。

    キャンセル

  • 2019/03/27 13:37

    ありがとうございます。活用形ごとに単語が区別した方がいいのか、しない方がいいのかということですね。

    キャンセル

+1

前にも似たような質問があったので参考にしてください。
https://teratail.com/questions/160581

こちらは、特徴に関する記述になります。
https://hayashibe.jp/tr/mecab/dictionary/

具体的な基本形の変換プログラムは、以下の記事が非常に分かりやすいので使って見てください。具体的には、基本形は六番目の要素を取り出す形になります。
https://qiita.com/Lain_/items/5ff21cc0589630378c49

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/03/27 13:38

    以前の事例は、よくわかりました。やはり活用形の意味が残るか残らないかの違いですね。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 87.60%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る