「各レコードから見て後ろ3日以内で条件を満たすレコードが存在するもの」の結果一覧から高速にマスターをアップデートするSQL

Question

id, name(text), inserted(UNIX_TIME)で出来ているテーブルが2つあります。
web_list, tell_listと名前を付けています。
どちらも同じ構造ですが意味合いが異なっています。

master, web_list, tel_listにはインデックスはありません。
idは自動採番、insertedは秒単位で全くバラバラです。nameは全体の2割ほどが複数回重複して含まれています。

ここで、web_listを上から順番に見ていって、あるレコード（例えばid=n）について【条件1】insertedが後ろ3日（259200秒）以内でかつ【条件2】nameが同一のレコードがあるもののidを抜き出して、masterに付き合わせてflagをアプデートしようとしています。

```SQL
update master set flag=1 where id in (
     select id from web_list as wlst
           where
                 0 < (select count(id) from tell_list as tlst
                       where
                          wlst.name = tlst.name
                          and
                          wlst.inserted < tlst.inserted
                          and
                                   tlst.inserted < wlst.inserted + 259200)
                      )
);
``` 
と、書いて結果は得られるのですが非常に遅く、ネットなどで検索するとMySQLのin＋サブクエリーは遅いのでjoinに書き換えた方が良いといった意見なども見受けられました。
AWSのRDS（large）などでテストしても各テーブルが数千件を超えるとまともに結果が返却されない（数十分かかってタイムアウト）といった状態です。

nameが同一で、3日以内のレコードが1件以上存在する（0<）ということを条件にしてweb_listからidを列挙してきているのですが……、もっと高速にSQLを書き換えられないものでしょうか。

質問のために一部SQLを変更していましたが、自己検証を繰り返しているうちに端折っているINSERT文＋INの組み合わせが非常に時間を掛けていることが分かってきました。この点も踏まえてコメントをいただけるとありがたいです。

master, web_list, tel_listのidを主キーにして速度が上がりました。しかしながら、まだかなり遅い印象で、まだ速くなる余地はないでしょうか。（tell_list, web_list共に2万件で1分ほど掛かります）

**web_list**
```web_list
id|name|inserted
11|bob |2016/09/01 12:00
12|mary|2016/09/01 13:00
15|mary|2016/09/05 10:00
16|bob |2016/09/06 15:00
```

**tel_list**
```tel_list
id|name|inserted
13|bob |2016/09/02 17:00
14|bob |2016/09/03 15:00
17|bob |2016/09/07 15:00
18|bob |2016/09/07 18:00
19|mary|2016/09/10 10:00
```
上記のようなイメージです。
この場合、INのサブクエリーで得られるID一覧は
11, 16
となります。

Accepted Answer

**updateが遅いとしたら**
masterのレコード数が膨大でidにindexが無いためか、単純に件数が膨大過ぎる場合でしょう「update master set flag=1 where ....」ですからね。基本的にwhere句以前には改善点がありません。
物理的に更新行が多すぎるなら改善は難しいです。PCスペックを上げるとか？

**目的のIDを抽出するsql**
多分次のように成ると思いますが、これは早いでしょうか？
```sql
SELECT w.id 
FROM web_list AS w 
LEFT JOIN tell_list AS t ON w.name = t.name
WHERE w.inserted < t.inserted
AND t.inserted <= w.inserted + INTERVAL 3 DAY
GROUP BY w.id
```
これが早いなら、in句が遅いか、冒頭で書いたようにmasterのレコード数が膨大な上indexが適当でないかのどちらかが原因かと思います。EXISTSに変更してみるか、masterのidにindex（プライマリキーにしているなら不要)を作成してみると良いかも知れません。

逆にこれが遅いならweb_listかtell_listのレコード数が膨大でindexが適切でないためだと思います。
nameに重複が少ないならname、またinsertedへのindexの作成を検討する必要があるかも知れません。

in句やdistinctはmysql5.1 以前だとやたら遅くなるケースがあったように思います。ただ特定のケースでindexが使えて無いことに起因してたように思うので、そもそもindexを作成していないなら関係無いと思いますし、5.4以降だとそんなことも無い気がします...

Answer

結合案は既に出てるので別案を。

試してみてはないので効果があるかも分かりませんが、
IN句と、COUNTで行ってる箇所をEXISTS句に置き換えるというのはどうでしょう？

Answer

nameが同一で、3日以内のレコードが存在するか否か、が分かればいいので、count する必用はないのでは。

結合と抽出条件を設定して、グループ化するか、DISTINCT で重複を排除するだけで、該当する id を抽出できます。

DISTINCT を使ったコード例

SQL
1UPDATE master SET flag = 1 WHERE ID In(
2	SELECT DISTINCT wlist.ID
3    FROM
4      web_list AS wlist INNER JOIN tel_list AS tlist
5      ON  wlist.name = tlist.name
6    WHERE
7      tlist.inserted > wlist.inserted
8      And
9      tlist.inserted < wlist.inserted + INTERVAL 3 DAY
10);
11

さらに大幅な速度アップを図るなら name と inserted にもインデックスを設定するぐらいかな。

追記

結局UPDATE 〜 INになっているのが原因かも知れません。

UPDATEの方もINNER JOIN に変更してみました。これで改善できればいいのですが。

SQL
1UPDATE master INNER JOIN
2    (
3      SELECT DISTINCT wlist.ID
4      FROM
5        web_list AS wlist INNER JOIN tel_list AS tlist
6        ON  wlist.name = tlist.name
7      WHERE
8        tlist.inserted > wlist.inserted
9        And tlist.inserted <= wlist.inserted + INTERVAL 3 DAY
10    ) t
11  ON  master.ID = t.ID
12SET master.flag = 1
13;

あと、INの方もJOINの方も DISTINCT を削除しても同じ結果になりますので、それを削除したSQLも試してみてください。重複排除処理が省略されますので高速化されるかも？

Answer

もし web_list と tel_list が id でもって 1対1 に対応づけられる
という前提があり、同じ id 同士の条件を比較すればよいなら
web_list と tel_list を結合し、それに対して条件で絞れば
いまより早くなりそうな気がします。

まあ、そういった前提が無いならダメですけど…
--- 追加 ---

//そういう話なら…

tel_list を name で group by でまとめて
最小の inserted を inserted としたものと
web_list を inner join したものを
3日以内という条件でしぼるってのはどうでしょう。

// 同じ name なら web_list の inserted は
// 必ず tel_list の inserted より若いという前提です。

関連した質問