まず、double型やfloat型がどれぐらいの範囲の数値を表せるのかはJavaの言語仕様書に書いてあります。
The Java Language Specification Java SE 8 Edition - 4.2.3. Floating-Point Types, Formats, and Values
上の日本語版(最新版の翻訳ではありませんが、doubleやfloatに関してJava8でも変更はありません)もありますので、参考になると思います。
Java言語規定 第2版 - 4.2.3 浮動小数点型,フォーマット及び値
なにやら難しいことが書いてありますが、JavaではIEEE 754の単精度(32bit)と倍精度(64bit)を使うと決められています。IEEE 754の詳細は下記のWikipediaが参考にするといいでしょう。
Wikipedia: IEEE 754
さて、細かい数字は上で見て貰うとして、doubleとfloatの違いは精度と指数です。
始めに精度についてです。たとえば1.1
という数字を考えます。IEEE 754では二進数で小数点数を表すため、正確な1.1
は表現できません。十進数の1.1は二進数では1.000110011...と無限小数になるからです(どうしてそうなるかはWikipedia: コンピュータの数値表現#4.2 浮動小数点数を見てください)。なので、プログラム上で計算するときは限界のところで丸められます。この限界がどこになるかが精度なのです。つまり、1.1
は十進数の1.1にきわめて近い別の数値であり、その誤差が精度なのです。問題はdoubleとfloatでは精度が異なることです。doubleでの1.1
とfloatでの1.1f
(Javaではfloat型であることを明記する場合は最後にf
を付けます)は十進数では同じに見えても、実際の1.1からdoubleの精度分の誤差がある数値と、floatの精度分の誤差がある数値といったように異なる値になります。
そして、doubleの方がfloatより精度が高い、つまり誤差が小さいです。そのため、doubleの値をfloatに入れようとすると、floatが表現できる範囲の精度に丸め込む必要があるため、元々の数値より誤差が大きくなってしまいます。数値自体が持っていた情報が落ちる、つまりは、計算の正確性が落ちることを意味します。これにより、精度が問題になるシビアな計算の場合は意図せぬバグを引き起こす可能性があります。なので、プログラマーが明示的にキャストするなどしないと、コンパイルエラーにし、バグを未然に防ぐようになっているのです。
次に指数です。こちらは演算した後に表現可能な指数以上になると無限大に、表現可能な指数以下になると0になるようになっています。こちらもdoubleの方がfloatよりも表現可能な範囲が大きいです。そのため、doubleでは表現可能な値もfloatだと無限大や0になってしまいます。これも精度の話と同じで元々持っていた情報が落ちてしまうため、明示的にしないとエラーになります。
では、1.5などの二進数でも正確に表現でき、doubelやfloatでも誤差なく表現可能な数値はどうなのか?ですが、二つ問題があります。
ひとつはそういったモノだけ特別に扱うと、コンパイラの仕様が複雑になります。リテラルだけならいいですが、変数に入れるとその数値が特別なモノかを判断する処理が必要になり、さらに複雑です。プログラマーの方もそれを気にして書いていく必要が出てきます。それよりは動作を一律同じにした方が言語仕様も簡単になり、コンパイラを作る人もプログラミングをする人も苦労しなくて済みます。
もうひとつはそれでも誤差があると考えるべきと言うことです。十進数の1.5は二進数では1.1ですが、doubleやfloatでは1.100...0xxxxx...と精度の限界以上の部分は不明という認識でいます。0が1000個ぐらいあとに1があったけど丸められてこうなっているのか、ほんとうにずっと0が続くのかはわからないからです。つまり、浮動小数点数は常に誤差がある数値と考えるべきで、正確な表記など存在しないとすべきなのでしょう。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
退会済みユーザー
2015/11/28 02:52