質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

87.93%

nltkのbleuスコアの使い方

解決済

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 935

score 4

概略

2つの文章を、bleuで評価して類似度を算出したいです。
エラーではないのですが、思うように結果が得られません。

実際の出力値

5.238101011110965e-78

該当のソースコード

from nltk import word_tokenize
from nltk import bleu_score

#参照文
references = 'I have a pen and apple'
ref = [word_tokenize(references)]
#仮定文
hypothesis = 'I have a pineapple'
hyp = word_tokenize(hypothesis)
#計算
bleuscore = bleu_score.sentence_bleu(ref, hyp)
#出力
print(bleuscore)

問題点

あまりにも小さい数値になり、
なにか間違っているのではないかと思うのですが
原因がわかりませんでした。
そもそも、この出力値は5.238(略)×10の-78乗という認識であっていますか?
ご教授お願い致します。

補足ーnltk環境の構築手順

pipでnltkをインストールした後、

nltk.download('punkt')


を実行しました。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+1

nltkの公式ページによると、bleu_score.sentence_bleuはデフォルトで連続4単語が一致している同士での比較になっているようです。その条件に満たない場合は、0を出力します。質問者様の状況は0が出力されていますということです。この意味のwarningも出力されていたかと思います。

https://www.nltk.org/api/nltk.translate.html#nltk.translate.bleu_score.sentence_bleu

実際に、下記の修正コード1では、連続4単語一致させて比較したところ、正常に値が出力されます。

このデフォルト動作を変えるには、上記公式ページによると2通り方法があります。

  • ウエイトを変える: 下記の修正コード2は連続3単語一致のウエイトにしました。
  • SmoothingFunction(連続一致が少ない比較のウエイトをスムーズにつなげる)を使う: 下記の修正コード3です。

なお、結果はroundを使って小数3位くらいまでとするのがよいでしょう。0がちゃんと0として出力できますので。

from nltk import word_tokenize
from nltk import bleu_score

# 元コード
references = 'I have a pen and apple'
ref = [word_tokenize(references)]
hypothesis = 'I have a pineapple'
hyp = word_tokenize(hypothesis)
bleuscore = bleu_score.sentence_bleu(ref, hyp)
print(bleuscore)
#/bleu_score.py:516: UserWarning: 
#The hypothesis contains 0 counts of 4-gram overlaps.
#Therefore the BLEU score evaluates to 0, independently of
#how many N-gram overlaps of lower order it contains.
#Consider using lower n-gram order or use SmoothingFunction()
#  warnings.warn(_msg)
#5.238101011110965e-78

# 修正コード1: 連続4単語が一致している場合は値が出力される
references = 'I have a pen and apple'
ref = [word_tokenize(references)]
hypothesis = 'I have a pen and pineapple'
hyp = word_tokenize(hypothesis)
bleuscore = bleu_score.sentence_bleu(ref, hyp)
print(bleuscore)
#0.7598356856515925

# 修正コード2: using lower n-gram order
references = 'I have a pen and apple'
ref = [word_tokenize(references)]
hypothesis = 'I have a pineapple'
hyp = word_tokenize(hypothesis)
bleuscore = bleu_score.sentence_bleu(ref, hyp, (1./3., 1./3., 1./3.))
print(bleuscore)
#0.3820903727892856

# 修正コード3: use SmoothingFunction()
references = 'I have a pen and apple'
ref = [word_tokenize(references)]
hypothesis = 'I have a pineapple'
hyp = word_tokenize(hypothesis)
bleuscore = bleu_score.sentence_bleu(ref, hyp, smoothing_function=bleu_score.SmoothingFunction().method1)
print(bleuscore)
#0.24117803988461298

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2020/11/03 15:54

    自分なりに調べて、比較には4単語以上必要という持論を展開していましたが、4”連続”だったのですね。
    解決することができました。丁寧なコードまでありがとうございました。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 87.93%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る