Tensorflowの学習後の量子化について学んでいます。
論文
こちらの論文の2.4. Implementation of a typical fused layerで、「uint8値の積の累積には32bitのアキュムレータが必要」という記述と、「int32 += uint8 * uint8 」という式があります。
8bitと8bitの乗算には16bitで十分かと思いますが、なぜ32bitが必要なのでしょうか。
また、tensorflowには16*8量子化というスキームがあります。こちらでは8bitと16bitの値を畳み込み演算、すなわち積を累積しているのですが、64bitのアキュムレータが必要とされています。その理由は何でしょうか。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2022/12/06 06:12