【Python】dict型で取り込んだ少数の値を取り出したい

前提・実現したいこと

MeCabを使用した自然言語処理を行おうとしております。
Twitterから取得したテキストデータをMeCabにて単語ごと区切り、
元から保存している(辞書+極性値)テキストと合致する単語の極性値を取得します。
最終的に、tweetごとにどの程度極性値を持っているのかテキストに保存させたいと思っております。

発生している問題・エラーメッセージ

現在発生している問題が、dict型で取り込んだ(辞書+極性値)テキストが、tweet文章と合致するか条件分岐処理を行ったときに極性値をうまく取り出せていない問題が発生しております。
※(辞書+極性値)テキストは、単語ごとに1.0～-1.0の値を持っており、現在処理を行うと取り出す値がすべて-1.0のなってしまう問題(数値が丸められてしまっている?)が発生しております。

# -*- coding: utf-8 -*-

#MeCabをimport
import MeCab

#アウトプット設定
outputfile = open('test-kekka.txt', 'w', encoding ='utf-8')

#ツイートテキストを読み込み
tweetfile = open('negaposit.txt', encoding = 'utf-8')

#negaposi辞書を読み込み
nega_posi = open('negaposi.txt', encoding = 'utf-8')

#Mecabの辞書設定
tagger = MeCab.Tagger("-Ochasen")
tagger.parse("")

dic = {}
result = "test"
score = 0
goal = {}
base_form = "a"
base_value = 0

#行ごとに辞書の読み込み⇒検索とdicに保存
for line in nega_posi:
  line = line.rstrip()
  columns = line.split(':')
  base_form = columns[0]
  base_value = float(columns[3])*10000
  dic[base_form] = str(base_value)

#print(dic)

for line in tweetfile:
    
  line = line.rstrip()
  node = tagger.parseToNode(line)

  while node is not None:
    #品詞情報取得
    #Node.featureのフォーマット：品詞、品詞細分類１、品詞細分類２、品詞細分類３、活用形、原形、読み、発音
    hinsi = node.feature.split(",")[0]
    if hinsi in["名詞"]:
      result = node.surface
      #print(result)
    elif hinsi in["動詞","形容詞"]:
      result = node.feature.split(",")[6]
      #print(result)
    else:
      result = ""

    if result in dic:
      print(result)
      score += float(dic[base_form])
      
    else:
      score += 0

    node = node.next

  goal[line] = score
  score = 0

#出力
for word in goal:

  print(word +'\t'+str(goal[word]), file = outputfile)

```Python3.x

試したこと

少数以下が丸められてしまっていると思っておりますので、
取り出した値をfloat型に変更したりは試しております。

補足情報（FW/ツールのバージョンなど）

quickquip

2019/09/16 10:02

ソースが読めなくなっているので編集しましょう

nabe0723

2019/09/16 10:24

ご指摘ありがとうございます。先ほど修正致しました。また不具合があればご連絡頂けると幸いです。

meg_

2019/09/16 11:55

「tweet文章と合致するか条件分岐処理を行ったときに極性値をうまく取り出せていない」箇所は上記コードのどこになりますか？

nabe0723

2019/09/16 12:29 編集

ご質問ありがとうございます。下記箇所になります。 for line in nega_posi: line = line.rstrip() columns = line.split(':') base_form = columns[0] base_value = float(columns[3])*10000 dic[base_form] = str(base_value) #print(dic) ・・・・ if result in dic: print(result) score += float(dic[base_form]) else: score += 0 ⇒上記箇所にてtweet文章に含まれる単語がdic内に存在するか判断し、合致していた場合に、極性値を加算する形となります。 ※現状、dicに不具合があるのか確認しましたが、問題なかったので、上記のコードにてdicから値を取り出すときに不具合が発生しているのではないか思っております。

meg_

2019/09/16 12:37

if result in dic: で条件分岐しているのに、「float(dic[base_form])」となるのでしょうか？ dic[result]ではないのですか？

nabe0723

2019/09/16 13:02

ご指摘ありがとうございます。何回か回収を行っているうちに修正できていなかったことが問題でした。初歩的なミスで大変申し訳ございません。大変助かりました、ありがとうございます。

siruku6

2019/09/26 13:42

もし解決済みであれば、自信の解決方法を回答欄に記載して解決済みにしておきましょう

行動規範の内容に同意します

回答1件

自己解決

回答が遅くなりました。
本件、下記コードで解決致しました。
お手数をおかけし、申し訳ございません。

#MeCabをimport
import MeCab

#アウトプット設定
outputfile = open('test-kekka.txt', 'w', encoding ='utf-8')

#ツイートテキストを読み込み
tweetfile = open('negaposit.txt', encoding = 'utf-8')

#negaposi辞書を読み込み
nega_posi = open('negaposi.txt', encoding = 'utf-8')

#Mecabの辞書設定
tagger = MeCab.Tagger("-Ochasen")
tagger.parse("")

dic = {}
result = "test"
score = 0
goal = {}
base_form = "a"
base_value = 0

#行ごとに辞書の読み込み⇒検索とdicに保存
for line in nega_posi:
line = line.rstrip()
columns = line.split(':')
base_form = columns[0]
base_value = float(columns[3])*10000
dic[base_form] = str(base_value)

#print(dic)

for line in tweetfile:

line = line.rstrip()
node = tagger.parseToNode(line)

while node is not None:
#品詞情報取得
#Node.featureのフォーマット：品詞、品詞細分類１、品詞細分類２、品詞細分類３、活用形、原形、読み、発音
hinsi = node.feature.split(",")[0]
if hinsi in["名詞"]:
result = node.surface
#print(result)
elif hinsi in["動詞","形容詞"]:
result = node.feature.split(",")[6]
#print(result)
else:
result = ""

if result in dic:
  print(result)
  score += float(dic[result])

else:
  score += 0

node = node.next

goal[line] = score
score = 0

#出力
for word in goal:

print(word +'\t'+str(goal[word]), file = outputfile)

投稿2019/11/03 05:32

nabe0723

総合スコア4

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！