Hiveプロパティ「hive.new.job.grouping.set.cardinality」について
ドキュメントhive.new.job.grouping.set.cardinalityを読み以下の様に理解しました。
sets/rollups/cubesをグループ化するために、新しいmap-reduceジョブを起動するかどうかの閾値が「hive.new.job.grouping.set.cardinality」である。
更に、DISTINCTを利用している場合、新しいmap-reduceジョブが起動された場合
その新しいmap-reduceジョブでは、DISTINCT句を利用できないため
DISTINCT句を用いないクエリーにするか
「hive.new.job.grouping.set.cardinality」を調整して、新しいmap-reduceジョブが起動されないようにする必要がある
実際、この様な問題になるクエリが存在しており
できれば、DISTINCT句を残したまま、「hive.new.job.grouping.set.cardinality」を調整し
回避できないか?と考えているのですが
その場合、考えられる弊害は何かあるのでしょうか?
もしくは、DISTINCT句を残すのは論外!
あくまでもDISTINCT句の排除を行うべき!など
ご教授頂けると助かります。
よろしくお願いいたします。
あなたの回答
tips
プレビュー