python3.6.0のnumpyでの実行結果がおかしいです

python3.6.0で以下のコードを入力したところ

import numpy as np
a=np.arange(0.5,0.8,0.01)
a

実行結果が

array([ 0.5 , 0.51, 0.52, 0.53, 0.54, 0.55, 0.56, 0.57, 0.58,
0.59, 0.6 , 0.61, 0.62, 0.63, 0.64, 0.65, 0.66, 0.67,
0.68, 0.69, 0.7 , 0.71, 0.72, 0.73, 0.74, 0.75, 0.76,
0.77, 0.78, 0.79, 0.8 ])

となりました。

正しい実行結果は
array([ 0.5 , 0.51, 0.52, 0.53, 0.54, 0.55, 0.56, 0.57, 0.58,
0.59, 0.6 , 0.61, 0.62, 0.63, 0.64, 0.65, 0.66, 0.67,
0.68, 0.69, 0.7 , 0.71, 0.72, 0.73, 0.74, 0.75, 0.76,
0.77, 0.78, 0.79])
だと思うのですが、これはバグでしょうか？

値の範囲を変えて確かめようと思い、以下のように入力すると
np.arange(0.4,0.7,0.01)

実行結果は
array([ 0.4 , 0.41, 0.42, 0.43, 0.44, 0.45, 0.46, 0.47, 0.48,
0.49, 0.5 , 0.51, 0.52, 0.53, 0.54, 0.55, 0.56, 0.57,
0.58, 0.59, 0.6 , 0.61, 0.62, 0.63, 0.64, 0.65, 0.66,
0.67, 0.68, 0.69])
と正しい結果はでます。

kawakawa2018

2018/04/26 16:55

いい質問ありがとうございます。これは重要ですね。pandasの基本はデータ配列をきちんと作るところから始まりますから。

行動規範の内容に同意します

回答2件

追記：自分の回答はずいぶん迂遠であり、もっと単純に回答できていたほうがよかったです(反省)。

mkgreiさんがリンクしてくださっているcan110さん回答で充分であり、多少追加するにしても以下ぐらいがよかったと思いました。

「arangeは閉空間[start, stop)を計算するので、要素数を決める演算で浮動小数点数の演算誤差の影響を受ける。期待通りの要素数にならないケースがあるのはリファレンスにあるとおり。本件でいえば
math.ceil((0.8-0.5)/0.01)が31になるためこのような結果になる」

白状しますとmath.floor((0.8-0.5)/0.01)で求めてるというハヤトチリのため「なんか誤差があると思うしリファレンスにもそう書いてある」みたいな漠然なコメントをしてしまったのです。お恥ずかしい限りです。math.ceilであるべきだと気づくことができれば最初から単純明快に回答できてたと思います。

元の回答

ちょっとやってみますと

python
1import numpy as np
2
3def zoo():
4  for f in ['0.', '0.0', '0.00', '0.000', '0.0000']:
5    b, e, s = [*map(float, f'{f}5 {f}8 {f}01'.split(' '))]
6    a = np.arange(b, e, s).shape
7    print(f'{b}, {e}, {s} : {a}')

===>

0.5, 0.8, 0.01 : (31,)
0.05, 0.08, 0.001 : (30,)
0.005, 0.008, 0.0001 : (30,)
0.0005, 0.0008, 1e-05 : (30,)
5e-05, 8e-05, 1e-06 : (31,)

ごらんのとおりいつも都合よく30要素にはなってないように見えます。なにせ浮動小数点数を指定してますので、「必ず30要素じゃないとバグ」と自分には思えません。

なんて遠回りをしたあとで「あ・・・リファレンスみなきゃ」と思い見てみると

When using a non-integer step, such as 0.1, the results will often not be consistent. It is better to use linspace for these cases.

ちゃんと書いてあるみたいです。

投稿2018/04/26 15:00

編集2018/04/26 23:14

KSwordOfHaste

総合スコア18404

114514

2018/04/26 16:55

予想以上に速い回答で驚いてます。リファレンスも示していただきありがとうございます。気になったのですが、浮動小数点数だと必ずしも30要素にならない理由は、例えば、 a=np.arange(0.5,0.8,0.01) と入力した際に「0.8」が「0.801」というように0.8より大きい数と認識されるという解釈であってますでしょうか？

KSwordOfHaste

2018/04/26 19:12 編集

ですね。 f'{0.8:.20f} {0.01:.20f}' ＝＞'0.80000000000000004441 0.01000000000000000021' みたいにするとわかります。 ---追記--- ですねと書きましたが、そう単純ではないです。0.8が文字通りの値ではないというのはおっしゃるとおりですが、0.01もそうですし、それらの値を計算した結果など全て誤差があります。その誤差がどう蓄積するかが問題です。本件の場合は 0.8 - a[-1]が負の値になるのでいかにもバグに見えますが計算の都合でそういうおかしなことにもなり得ると解釈しました。 not be consistent. と言われるとほぼなんでも許容しないといけなさそうですので。

hayataka2049

2018/04/26 21:57 編集

この質問を見て気になったので、両方の最後の要素を30桁出してみたら、 0.800000000000000266453525910038 0.690000000000000279776202205539 別段違いはなさそうですが・・・それはそうとして、 >>> c = 0.5 >>> for _ in range(31): ... print("{:.30f}".format(c)) ... c += 0.01 これで最後に出力される数字は上と同じだった（ちょっと意外でした）そして、 >>> (0.7-0.4)/0.01 29.999999999999993 >>> (0.8-0.5)/0.01 30.000000000000004 >>> int((0.7-0.4)/0.01) 29 >>> int((0.8-0.5)/0.01) 30 だから、そういう実装なんだな、と勝手に思いました（要素数＝ループ回数の決まり方が）

KSwordOfHaste

2018/04/26 22:40

hayataka2049さんがおっしゃるとおりと思います。arangeの機能は閉空間 [start, stop) を計算することなので、要素数を求めるにはmath.ceil((stop-start)/step)とやりますよね？浮動小数点数の演算誤差のため期待が30でも計算結果が30より少しだけ大きな値になってしまう以上は31要素とarangeが判断したのはしかたないことだと思います。下記のソースのPyArray_Arangeという関数の実装をみると実際に上のように要素数を求めてるように見えました。 https://github.com/numpy/numpy/blob/a04676a2d1048dc1cc62255547f63c7a17000d02/numpy/core/src/multiarray/ctors.c

114514

2018/04/27 01:13

要素数の計算をする際は小数点切り上げをすると分かり大変参考になりました。色々調べてくださり大変感謝しております。

行動規範の内容に同意します

ベストアンサー

過去問。

https://teratail.com/questions/105198

投稿2018/04/26 22:12

mkgrei

総合スコア8562

114514

2018/04/27 01:03 編集

リンクを貼ってくださりありがとうございます。要素数を30にするためには np.arange(5,8)/100 とすれば安定することが分かり参考になりました。

KSwordOfHaste

2018/04/27 03:27

どちらかといえばlinspaceが明解であるように思います。区間数がNでもN+1でもどっちでも構わない場合(散布図などのグラフの軸生成)や区間が整数の場合ならarange, 区間が実数で厳密にN個としたい(FFTの周波数や棒グラフのラベルなどの軸を生成)ならlinspaceがいいんじゃないでしょうか。

114514

2018/04/27 13:22

確かにlinspaceだと最後の値を確実に含むので、小数点を含む場合はそちらの方が分かりやすいですね。ここまで色々な情報を教えてくださると思っていなかったので、本当に感謝しております。

行動規範の内容に同意します

あなたの回答