PostgreSQL11でHash Right JoinではなくParallel Hash Left Join を強制的に指定したい

Question

### 実現したいこと
PostgreSQL11でHash Right JoinではなくParallel Hash Left Join を強制的に指定したい。
内部でHash Right JoinではなくParallel Hash Left Joinが使い分けれる仕組みを知りたい。

### 前提
SELECT *
FROM shouhin
LEFT JOIN koumoku ON shouhin.id = koumoku.id
WHERE shouhin.price = 100
AND koumoku.bangou = 3

例えば上記の様なSQL文を流した時にEXPLAIN ANALYZE で確認すると、
WHERE shouhin.price = 123
AND koumoku.bangou = 3
の時は、Parallel Hash Left Joinが使われますが、

WHERE shouhin.price = 345
AND koumoku.bangou = 4
↑別の値で検索するとHash Right Joinが必ず利用されます。

上記のWHERE句の部分は有効な数字で似た様な値に関わらず、
結合方法が、Hash JoinとNested Loopで別れます。

Hash Joinの時はSeq Scanになり速度がかなり遅くなります。

WHERE句の値が少し違うだけにもかかわらず、
どういう理由でHash JoinとNested Loopが別れるか知りたいです。
また速度が遅くなるのでNested Loopを強制したいです。

INDEXで速度の問題については解決できるので、
どういう理由でHash JoinとNested Loopが別れるか教えて下さい。

### 試したこと
WHERE句の検索条件については、数字３桁と数字１桁です。
PostgreSQL11、PostgreSQL9で試しましたが、どちらも同じ挙動をします。

Accepted Answer

> どういう理由でHash JoinとNested Loopが別れるか教えて下さい。

リファレンスによれば、それぞれの選択肢で計画し一番コストの低いものを選択するとあります。

[51.5. プランナ/オプティマイザ](https://www.postgresql.jp/document/11/html/planner-optimizer.html)

以下抜粋

> 問い合わせが２つ以上のリレーションの結合を必要とすると、リレーションを結合する計画は、単一のリレーションをスキャンするために全ての実行可能な計画が探し出された後に検討されます。３つの実行可能な結合戦略を示します。
>
> ネステッドループ結合： 左側のリレーションの中で見つけられた行ごとに右側のリレーションが1回スキャンされます。 この戦略は実装が簡単ですが、時間がかかる場合があります （とは言っても右側のリレーションがインデックススキャンによってスキャン可能であればよい戦略になります。 右側のインデックススキャンのキーとして左側のリレーションの現在の行の値を使用することができます。）
> 
> マージ結合： 結合を開始する前に、それぞれのリレーションを結合属性でソートします。 そして、2つのリレーションを並行してスキャンし、一致する行を結合行の形にまとめます。 それぞれのリレーションがたった1回しかスキャンされなくて済むのでこの結合は魅力的です。 要求されるソートは、明示的なソート段階、または、結合キー上のインデックスを使用して適切な順序でリレーションをスキャンすることにより行われます。
> 
> ハッシュ結合： 右側のリレーションがハッシュキーとして結合属性を用いて初めにスキャンされ、ハッシュテーブルに読み込まれます。 次に左側のリレーションがスキャンされ、見つかったそれぞれの行に相応しい値が、右側のリレーションの行を探し出すためのハッシュキーとして使われます。

※コメントに対して追記
> 抽出文の変更かINDEXしか対策はなさそうだと判断いたしました。
拡張モジュールでヒント文での制御が可能です。

[pg_hint_plan (PostgreSQL 実行計画制御ツール)](https://www.sraoss.co.jp/tech-blog/pgsql/pg_hint_plan/)

以下抜粋
> <利用可能なヒントのカテゴリ>
|||
|:--|:--|
|スキャン方式			|テーブルのスキャン方式を指定できます												|
|結合順序					|複数あるテーブルをどの順で結合するか指定できます           |
|結合方式					|テーブル結合の方式を指定できます                           |
|見積件数補正			|テーブル結合結果の件数見積もりを補正する指定ができます     |
|パラレル実行			|パラレル実行を強制あるいは禁止する指定ができます           |
|設定パラメータ		|SETコマンドで指定できるパラメータ設定をヒントから与えます  |

Answer

# 回答ではありません。何度言っても事実の提示をせず、原因も不明なまま解決を選択してしまったので、質問者さん以外の人にとっては掴みどころのない質問になってしまいました。ここでは他の人のために回答ではないサンプルを用意しました。 ## 環境構築スクリプト dockerがインストールされたLinuxでユーザーがdocker操作権限を持っている場合に動作します。 ```bash #!/bin/sh docker run -d --rm --name postgres -p 5432:5432 -e POSTGRES_USER=postgres -e POSTGRES_DB=postgres -e POSTGRES_PASSWORD=secret -v $(pwd)/data:/var/lib/postgresql/data postgres:11 docker exec -i postgres bash < Seq Scan on item (cost=0.00..1237.20 rows=32751 width=22) (actual time=0.009..10.173 rows=32768 loops=1) Filter: (price = '150'::numeric) Rows Removed by Filter: 32768 -> Hash (cost=19.80..19.80 rows=512 width=19) (actual time=0.173..0.174 rows=512 loops=1) Buckets: 1024 Batches: 1 Memory Usage: 34kB -> Seq Scan on attr (cost=0.00..19.80 rows=512 width=19) (actual time=0.006..0.113 rows=512 loops=1) Filter: ((name)::text = '属性2'::text) Rows Removed by Filter: 512 Planning Time: 0.269 ms Execution Time: 14.607 ms (12 rows) explain analyze select * from item left join attr on item.id=attr.item_id where item.price=150 and attr.name='属性3'; QUERY PLAN ------------------------------------------------------------------------------------------------------ Nested Loop (cost=0.29..28.11 rows=1 width=41) (actual time=0.086..0.087 rows=0 loops=1) -> Seq Scan on attr (cost=0.00..19.80 rows=1 width=19) (actual time=0.086..0.086 rows=0 loops=1) Filter: ((name)::text = '属性3'::text) Rows Removed by Filter: 1024 -> Index Scan using item_pkey on item (cost=0.29..8.31 rows=1 width=22) (never executed) Index Cond: (id = attr.item_id) Filter: (price = '150'::numeric) Planning Time: 0.287 ms Execution Time: 0.106 ms (9 rows) \q postgres ``` ### 考察存在しない属性値を使用するとattr側の行がなくなるので、joinの方法が合理的に変わった。 ## 言いたいことこういう話からスタートさせてください。させられないなら、この質問をするだけの前提知識が足りていません。

PostgreSQL11でHash Right JoinではなくParallel Hash Left Join を強制的に指定したい

実現したいこと

前提

試したこと

回答ではありません。

環境構築スクリプト

説明

実行結果

考察

言いたいこと

関連した質問


スキャン方式	テーブルのスキャン方式を指定できます
結合順序	複数あるテーブルをどの順で結合するか指定できます
結合方式	テーブル結合の方式を指定できます
見積件数補正	テーブル結合結果の件数見積もりを補正する指定ができます
パラレル実行	パラレル実行を強制あるいは禁止する指定ができます
設定パラメータ	SETコマンドで指定できるパラメータ設定をヒントから与えます