python　x=listのとき sum(x)==(y+=z for z in x)になりません

self.aaaaaaaaaaaaaaaaaaはデバック用に置いた変数です
ですがこの値が矛盾してます　理由が全く分かりません

import numpy as np
x=np.random.rand(100)#乱数生成
y=0
for _ in range(100):
    y+=x[_]
print(sum(x))
print(y)
の場合で　y==xにならない　下のコードではということになってます

self.aaaaaaaaaaaaaaaaaaはlistでlossの中身を見るためにつけました
問題のコード説明
強化学習をやっていて
self.tortal_lossesはdoneが来るまでのlossの合計
lossを1stepずつ足していき　done信号（定期的に来る）がきたら0にする　
lossは二乗しているので必ず＋です
self.aaaaaaaaaaaaaaaaaaの合計は明らかに0.0001を超えているのに
表示されます
エピソード数（doneが何回来たか） Episode finished この問題には関係ない値 loss tensor(self.tortal_losses)
はdone信号が来たら表示します
問題の部分

python
1
2        self.tortal_losses+=loss.detach().to('cpu')
3        
4        self.aaaaaaaaaaaaaaaaaa.append(loss.detach())
5        if self.tortal_losses<0.0001:
6            print(self.aaaaaaaaaaaaaaaaaa)
7リセット部分
8    def Done(self,step):
9        self.beta = self.beta_initial + (1 - self.beta_initial) * step / self.beta_steps
10        self.Rs=[0 for _ in range(multireward_steps)]
11        self.tortal_losses=0
12        self.aaaaaaaaaaaaaaaaaa=[]#-----------------------------

13 Episode finished -1158.8909563610828 loss tensor(0.0026)
[tensor(1.0641e-05, device='cuda:0')]
[tensor(1.0641e-05, device='cuda:0'), tensor(6.0145e-06, device='cuda:0')]
[tensor(1.0641e-05, device='cuda:0'), tensor(6.0145e-06, device='cuda:0'), tensor(1.8771e-05, device='cuda:0')]
[tensor(1.0641e-05, device='cuda:0'), tensor(6.0145e-06, device='cuda:0'), tensor(1.8771e-05, device='cuda:0'), tensor(1.0291e-05, device='cuda:0')]
[tensor(1.0641e-05, device='cuda:0'), tensor(6.0145e-06, device='cuda:0'), tensor(1.8771e-05, device='cuda:0'), tensor(1.0291e-05, device='cuda:0'), tensor(8.9044e-06, device='cuda:0')]
[tensor(1.0641e-05, device='cuda:0'), tensor(6.0145e-06, device='cuda:0'), tensor(1.8771e-05, device='cuda:0'), tensor(1.0291e-05, device='cuda:0'), tensor(8.9044e-06, device='cuda:0'), tensor(8.3876e-06, device='cuda:0')]
[tensor(1.0641e-05, device='cuda:0'), tensor(6.0145e-06, device='cuda:0'), tensor(1.8771e-05, device='cuda:0'), tensor(1.0291e-05, device='cuda:0'), tensor(8.9044e-06, device='cuda:0'), tensor(8.3876e-06, device='cuda:0'), tensor(1.9963e-05, device='cuda:0')]
[tensor(1.0641e-05, device='cuda:0'), tensor(6.0145e-06, device='cuda:0'), tensor(1.8771e-05, device='cuda:0'), tensor(1.0291e-05, device='cuda:0'), tensor(8.9044e-06, device='cuda:0'), tensor(8.3876e-06, device='cuda:0'), tensor(1.9963e-05, device='cuda:0'), tensor(7.8826e-06, device='cuda:0')]
[tensor(1.0641e-05, device='cuda:0'), tensor(6.0145e-06, device='cuda:0'), tensor(1.8771e-05, device='cuda:0'), tensor(1.0291e-05, device='cuda:0'), tensor(8.9044e-06, device='cuda:0'), tensor(8.3876e-06, device='cuda:0'), tensor(1.9963e-05, device='cuda:0'), tensor(7.8826e-06, device='cuda:0'), tensor(9.0109e-06, device='cuda:0')]
14 Episode finished -1128.1795158087486 loss tensor(0.0038)
[tensor(2.9019e-05, device='cuda:0')]
[tensor(2.9019e-05, device='cuda:0'), tensor(2.4793e-05, device='cuda:0')]
[tensor(2.9019e-05, device='cuda:0'), tensor(2.4793e-05, device='cuda:0'), tensor(1.5492e-05, device='cuda:0')]
[tensor(2.9019e-05, device='cuda:0'), tensor(2.4793e-05, device='cuda:0'), tensor(1.5492e-05, device='cuda:0'), tensor(1.5380e-05, device='cuda:0')]
[tensor(2.9019e-05, device='cuda:0'), tensor(2.4793e-05, device='cuda:0'), tensor(1.5492e-05, device='cuda:0'), tensor(1.5380e-05, device='cuda:0'), tensor(1.0752e-05, device='cuda:0')]
15 Episode finished -1135.8225297289405 loss tensor(0.0252)
16 Episode finished -1153.358029432231 loss tensor(0.0104)
[tensor(1.7044e-05, device='cuda:0')]
[tensor(1.7044e-05, device='cuda:0'), tensor(1.5978e-05, device='cuda:0')]
[tensor(1.7044e-05, device='cuda:0'), tensor(1.5978e-05, device='cuda:0'), tensor(2.3430e-05, device='cuda:0')]

8524ba23

2020/07/05 22:41

すみませんが全体的に質問を理解することができません。・単体で実行でき問題を再現できる最小のコードを提示する・そのコードを実行した現状の結果、その結果の問題点、得たい結果を具体的に示すと回答得られやすくなると思います。

quickquip

2020/07/05 23:46

self.tortal_losses をprintしていますか?

行動規範の内容に同意します

回答1件

ベストアンサー

pythonというよりもpytorchの問題です。

self.aaaaaaaaaaaaaaaaaa.append(loss.detach())

に問題があります。loss.detach()の結果はその後の演算の影響を受けます。

python
1import torch
2
3losses = []
4
5loss = torch.ones(1) * 100.0
6losses.append(loss.detach())
7
8loss -= 10.0
9losses.append(loss.detach())
10
11print(losses)
12
13# 結果
14# [tensor([90.]), tensor([90.])]