Javaで同一内容のオブジェクトの使用メモリ量が環境により異なる理由

Question

### 疑問点の要約例えば、"山田太郎"という文字列を表すString型のインスタンスのメモリ使用量は同一バージョンのJVM上では同じになると思っていたが、ライブラリを用いて測定したところ、プログラムを実行する環境により異なっていた、なぜ違いが生じたのか？ ### 質問に至る背景、経緯・Javaプログラムでメモリ使用量の削減を行いたい。・実際のメモリ使用量を測る（現状のメモリ使用量、コード修正による効果の測定）ため、java-sizeof等のインスタンスのメモリ使用量を調べるライブラリを使用した。・測定を行う中で、同一内容のデータオブジェクトであってもjava-sizeof等のライブラリが出力する使用メモリの値はプログラムを実行する環境により異なる、ということに気づいた。・当初の目的はメモリ使用量の削減だが、そのためには「自分が見ているものが何なのか？」という理解も必要と考え、この結果となる理由を知りたいと思ったが、いまいちどういった方面から調べると答えにたどり着けるのかがわからなかった。 ### 実験に使用したコード ```Java String str1 = "abcdefghij"; System.out.println("str1 = \"abcdefghij\" size(byte) -> " + RamUsageEstimator.sizeOf(str1)); String str2 = "山田太郎"; System.out.println("str2 = \"山田太郎\" size(byte) -> " + RamUsageEstimator.sizeOf(str2)); ``` ### 結果 ``` ＜環境A＞ str1 = "abcdefghij" size(byte) -> 64 str2 = "山田太郎" size(byte) -> 48 ＜環境B＞ str1 = "abcdefghij" size(byte) -> 80 str2 = "山田太郎" size(byte) -> 64 ``` ### 環境の違い環境A： WindowsOS（64bit）上のEclipseから実行>Javaアプリケーションを使用して実行。環境B： WindowsOS（64bit）上でビルド済みjarをコマンドライン上からjavaコマンドを使用して起動。環境A、Bどちらもマイナーバージョンまで同じOracleのJava8のJDKを使用。（環境について、どのような情報を記載すると回答が得られそうか、ハードウェアなのか、ソフトウェアなのか、それともそのような情報はあまり要らないのか…、ということが今一つわからないため、この程度しか書けないのですが、回答にはこのような情報が必要、ということがあれば教えてください。） ### Javaコマンドのオプションによる結果の違い（追記）環境により結果が変わると思っていたのですが、同じ環境でもjavaコマンドのオプションで-Xms32g -Xmx64gをつけるかどうかで、結果が変わるということがわかりました。具体的には環境Bでつけていた場合は ``` >java -jar -Xms32g -Xmx64g *****.jar str1 = "abcdefghij" size(byte) -> 80 str2 = "山田太郎" size(byte) -> 64 ``` となるのですが、環境Bでもつけていない場合、 ``` >java -jar *****.jar ``` や ``` >java -jar -Xms4g -Xmx8g *****.jar ``` では、 ``` str1 = "abcdefghij" size(byte) -> 64 str2 = "山田太郎" size(byte) -> 48 ``` となり、環境Aと同じになりました。なので、もしかしたら環境の違いではなく、こちらが本質なのかもしれません。逆に環境Aで-Xms32g -Xmx64gを指定したらどうなるのかは、そんなにメモリを搭載していないため、確認できていません。 ### メモリ使用量測定に使用したライブラリ（pom.xmlの記載） ``` com.carrotsearch java-sizeof 0.0.5 org.openjdk.jol jol-core 0.14 provided ``` （上記のコード例ではjava-sizeofの方を記載しましたが、jol-coreを使用した場合も結果は同じ値になりました。） ### System.out.println(System.getProperty("os.arch"))の出力結果（情報追加依頼により追記） System.out.println(System.getProperty("os.arch")); の出力結果は環境A、Bともに同じで、"amd64"でした。 ### 知りたいこと１．環境により同じデータのインスタンスであっても異なるメモリ使用量となるのは「普通のこと」なのか？それとも、「本来は同じになるはず」…だが、自分の何らかのミス、勘違いにより異なっているのか？２．上記１が「普通のこと」であった場合、「なぜ出力される値は異なるのか？」。そうでなく、「本来は同じになるはず」の場合、異なっているのにはどのような原因が考えられるのか。３．java-sizeof等のライブラリは何の値を出力しているのか？「実際のメモリ使用量」を出力するものなのか？４．何らかの要素（パラメータ？）により、同一内容のインスタンスでも使用メモリ量が変動するのだとしたら、明示的にそれらを指定することによりメモリ使用量をコントロールできないか？５．仮に環境ごとに使用メモリ量が異なるのは仕方のないことだったとして、環境Aでインスタンスの使用メモリ量（としてjava-sizeof等のライブラリが出力する値）が減少するようなプログラム上の修正を行えば、それは環境Bでもメモリ量削減に有効なのか。ある環境で「のみ」有効であったり、環境Aでは有効なものが環境Bでは逆効果、というように「逆転」したりすることは無い、と考えてよいものなのか（環境により結果がことなることから生じている不安）。

Accepted Answer

究極のところ [https://repo1.maven.org/maven2/com/carrotsearch/java-sizeof/0.0.5/](https://repo1.maven.org/maven2/com/carrotsearch/java-sizeof/0.0.5/) の sources.jar から実装を読んで、何がどう計算されているのか全部追えばいいと思いました。ざっと見た感じの範囲だと、違いが起きそうな大きなファクターは、非staticなフィールドに違いがあるか? とJREが64bitかどうか? のように見えました。という理由からシステムプロパティのos.archを確認してみたらと思ったのですが、実際のコードでは内部実装に属するクラスの`sun.misc.Unsafe`から取得して判定していました。ひとまず、以下のコードあたりを試して違いを比べてみてはいかがでしょうか。 ```java import java.lang.reflect.Field; import java.lang.reflect.Modifier; public class GetNonStaticFieldsOfString { public static void main(String[] args) throws Exception { Field[] fields = String.class.getDeclaredFields(); for (final Field f : fields) { Class type = f.getType(); if (!Modifier.isStatic(f.getModifiers())) { System.out.println(f.getName() + " " + f.getType()); } } final Class unsafeClass = Class.forName("sun.misc.Unsafe"); final Field unsafeField = unsafeClass.getDeclaredField("theUnsafe"); unsafeField.setAccessible(true); final Object unsafe = unsafeField.get(null); final int addressSize = ((Number) unsafeClass.getMethod("addressSize").invoke(unsafe)).intValue(); System.out.println("is64bit:" + (addressSize >= 8)); } } ``` ここで違いがないと、各フィールドの要素に対して、実際のコードと同じように`sun.misc.Unsafe`を使って情報を取りつつ計算していくコードを書いて、検証していく必要があると思います。 ---- プリミティブデータの大きさは言語仕様で決まっているので、（非staticフィールドが同じなのに）違いがあるなら、メモリの[アラインメント](https://e-words.jp/w/%E3%82%A2%E3%83%A9%E3%82%A4%E3%83%A1%E3%83%B3%E3%83%88.html)の影響が一番"ありそう"です。 32bit JREと64bit JREではメモリのアラインメントが違って、推定サイズが変わるのは間違いないでしょう。それ以外で（同じバージョンのJREで）メモリのアラインメントに違いがでることがあるか? となると不明です。上記の通り、java-sizeofのコードを追いかけつつ違いを検証していくことになるかと思います。 ---- (追記) 64ビット環境だと「あるオブジェクトのアドレス」を表すのには本来64ビットのメモリスペースが必要なわけですが、"ヒープの最大サイズが設定されたらそのアドレス以降にデータが置かれることがあり得ない"とか、"64ビット単位でアラインされてデータが置かれる"とかいった状況があるため（ヒープの最大サイズが十分に小さければ）実際にはもっと小さいメモリスペースで済ませれます。 64ビットOpenJDK実装には、ヒープの最大が32GB以下である時に限り「あるオブジェクトのアドレス」を表すデータ構造が32ビットで済むような仕組みが入っているようです。（[https://www.oracle.com/technetwork/jp/articles/java/compressedoops-427542-ja.html](https://www.oracle.com/technetwork/jp/articles/java/compressedoops-427542-ja.html) をコメントにて教えていただきました）おそらくはその仕組みのためと思われますが、ヒープの最大サイズが32GB以下か32GBより大きいかで、返ってくる数値が変わるという現象が確認できます。

Answer

RamUsageEstimatorの[説明](https://lucene.apache.org/core/8_5_2/core/org/apache/lucene/util/RamUsageEstimator.html)読んだ感じ

> This class uses assumptions that were discovered for the Hotspot virtual machine. If you use a non-OpenJDK/Oracle-based JVM, the measurements may be slightly wrong.
Google翻訳：このクラスは、Hotspot仮想マシンで検出された仮定を使用します。 OpenJDK / Oracleベース以外のJVMを使用している場合、測定値が少し間違っている可能性があります。

らしいです。
あくまで参考値としたほうが良いかもしれません。

最小構成で確認するのはもちろん良いのですが、
実際のアプリケーションは複雑な処理の組み合わせで成り立っているため、
よりそれに近い形を試した上で、適切にメモリ開放している場合とそうでない場合の測定値を比べた方が
本来の目的である「メモリ使用量の削減」に繋がるように思います。

疑問点の要約

質問に至る背景、経緯

実験に使用したコード

結果

環境の違い

Javaコマンドのオプションによる結果の違い（追記）

メモリ使用量測定に使用したライブラリ（pom.xmlの記載）

System.out.println(System.getProperty("os.arch"))の出力結果

知りたいこと

関連した質問