PosgreSQLの評価順序が期待するように動かない場合変更する方法はありますか？

Question

**実行環境**
PostgreSQL (version 9.5) 
[RDKit database cartridge](http://www.rdkit.org/docs/Cartridge.html) (version 2017.03.1)

[RDKit database cartridge](http://www.rdkit.org/docs/Cartridge.html)はPostgreSQLで
化学構造情報を取り扱うmol型や化学構造情報特有の検索を行うためのcartridgeです。

---

**目的**
現在、化学構造をレコードを保存しているcompoundsテーブルに対して部分構造検索と呼ばれる検索を行うSQL文を作成しています。

従来の方法では

0. compoundsレコードのmolと呼ばれるカラムに対して部分構造検索を行う

のみが行う作業となり以下のようなSQL文になります。

```sql
SELECT compound_id FROM compounds WHERE mol @> BAR
```

@>はRDKit database cartridgeで拡張された機能である部分構造検索を行う部分です。

しかし、compoundsテーブルは約1200万のレコードが含まれているので、

0. 別途用意したsubstructuresテーブルに対してquery_idと呼ばれるカラムで絞り込みを行いcompound_idを得る 
1. 得られたcompound_idを用いてNATURAL JOINでcompoundsテーブルを絞り込む
2. 絞り込まれたレコードのmolと呼ばれるカラムに対して部分構造検索を行う


と言った作業を行うことで高速化を目指しています。

この1, 2, 3を順序通り行うために考えたSQL文が以下のようになります。

```sql
SELECT compound_id FROM 
compounds NATURAL JOIN (SELECT compound_id FROM substructures WHERE query_id = FOO) s 
WHERE mol @> BAR
```
しかしこれらの２通りの方法をEXPLAIN ANALYZEで調べたところ以下のような結果になりました。


改善案のSQL文では二度部分構造検索を行ってしまっており、むしろ計算コストが高くなってしまいました。

**改善案のSQL文のEXPLAIN ANALYZE実行結果**
![改善案のSQL文のEXPLAIN ANALYZE実行結果](c604fd870fb5fa977ead84c876c338cf.png)

**従来法のSQL文のEXPLAIN ANALYZE実行結果**
![従来法のSQL文のEXPLAIN ANALYZE実行結果](868bf0b956d93f3f9aa5904016941faf.png)
---
そこで、以下のようにWITHを用いたSQL文を使うと期待通り動くようになりました。

```sql
WITH s AS (
      SELECT * FROM compounds NATURAL JOIN (SELECT compound_id FROM substructures WHERE query_id = FOO)
)
SELECT COUNT(*) FROM s2 WHERE mol @> BAR
```

**WITHを用いた改善案のSQL文のEXPLAIN ANALYZE実行結果**
![WITHを用いた改善案のSQL文のEXPLAIN ANALYZE実行結果](a4c743ff09469ce16f29d0ace72f3b77.png)

今後の勉強のためにWITHを用いないSQL文で期待どおりに動くようにするためにはどうすればよいかアドバイスいただけたら幸いです。

@>というcartridge特有の機能が一番初めに実行される仕様となっているのでしょうか？

また、インデックスを貼るなど以外のより高速にするためのアドバイスが有ればそちらも合わせていただけたら幸いです。

よろしくお願いします。


---
追記
ご助言いただいたようにquery_idにインデックスを追加し、NATURA JOINをINに変更したSQL文のEXPLAIN ANALYZE実行結果
![改善案ver2SQL文のEXPLAIN ANALYZE実行結果](dd78ede48ecfc5300fbe2865f9311acc.png)

さらにご助言いただいたの結果はエラーとなりました。
![イメージ説明](0c23d3ba793ea47ca8fe4812a10702a6.png)

そこで、andでつないでみましたところ動きました。
![イメージ説明](61bbaec09bde7d7e67480d094677d433.png)](6991aa282d69b7bc8b7fa9fd6fb26204.png)

Accepted Answer

「改善案」とされる2番目のSQLの実行計画(画像では1番目)は単純に1番目のSQLの実行計画(画像では2番目)に`substructures`テーブルのサブクエリの結果のJOINが結合されただけに見えますね。`substructures`の検索コストが元のクエリのコストよりも大きいので、絞込に使う意味はないですし、そうすると無意味にコストを増やしているだけになっています。

> 二度部分構造検索を行ってしまっており

と書かれていますが、この点に違いはないように見えます。

3番目が意図通りと書かれていますが、コスト的には一番悪くなっています。

とりあえず大きな問題は、`substructures`の検索が遅すぎることです。実行計画を見る限りではこれはおそらく`query_id`にインデックスを張れば解決するとおもいます。

あとはサブクエリを結合してるのが何となくですが気持ち悪いです。結合ではなくINで検索するとか、サブクエリを使わずにJOINするとか、いろいろ試して実行計画確認してみてください

> @>というcartridge特有の機能が一番初めに実行される仕様となっているのでしょうか？ 

外部のライブラリによって提供される演算子については、ライブラリ側でコストが過小や過大に設定されているためにコスト計算がおかしくなり不効率な実行計画が選択される事例があるようです。が、実行計画見る限りではその例には当てはまらないような気がします。

--
追記されたSQLですが、二重になってるサブクエリのうち内側はともかく外側は意味不明です。

```
SELECT * FROM compounds WHERE compounds_id IN (SELECT ...) AND mol @> ...
```

でよいでしょう。

Answer

> @>というcartridge特有の機能が一番初めに実行される仕様とな,,,

molって必ずユニークになりますよね。
そしてインデックスも付いている（はず）。
そうするとオプティマイザは、
そのカラムを使うのが最速と判断するので、
通常の仕様かと思います。

suzukisさんも言われていますが
提示されているwith句を使った3番目のSQLは
NestedLoopされており非常にパフォーマンスが悪いと考えられます。
substructuresのquery_idですが、
総件数とquery_idの値のバラつきによってインデックスが利用されるかされないか変わってきます。
入力される検索条件も視野に入れたほうがいいです。

他の案としては、
compoundsテーブルのレコード数が多少多いので
compoundsのcompound_id毎にパーティション切ったりすると、
多少早くなるかもしれません。
※可能であれば、substructuresのquery_idに紐づくcompound_id毎が最速になるかと。