質問編集履歴

テーブルweb_list, tel_listのサンプルを追記しました。

2016/09/18 03:04

投稿

cnx

スコア19

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -28,4 +28,27 @@
 質問のために一部SQLを変更していましたが、自己検証を繰り返しているうちに端折っているINSERT文＋INの組み合わせが非常に時間を掛けていることが分かってきました。この点も踏まえてコメントをいただけるとありがたいです。
-master, web_list, tel_listのidを主キーにして速度が上がりました。しかしながら、まだかなり遅い印象で、まだ速くなる余地はないでしょうか。（tell_list, web_list共に2万件で1分ほど掛かります）
+master, web_list, tel_listのidを主キーにして速度が上がりました。しかしながら、まだかなり遅い印象で、まだ速くなる余地はないでしょうか。（tell_list, web_list共に2万件で1分ほど掛かります）
+**web_list**
+```web_list
+id|name|inserted
+11|bob |2016/09/01 12:00
+12|mary|2016/09/01 13:00
+15|mary|2016/09/05 10:00
+16|bob |2016/09/06 15:00
+```
+**tel_list**
+```tel_list
+id|name|inserted
+13|bob |2016/09/02 17:00
+14|bob |2016/09/03 15:00
+17|bob |2016/09/07 15:00
+18|bob |2016/09/07 18:00
+19|mary|2016/09/10 10:00
+```
+上記のようなイメージです。
+この場合、INのサブクエリーで得られるID一覧は
+11, 16
+となります。

21 74 343

インデックスにより少し高速化されたことの追記

2016/09/18 03:03

投稿

cnx

スコア19

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -26,4 +26,6 @@
 nameが同一で、3日以内のレコードが1件以上存在する（0<）ということを条件にしてweb_listからidを列挙してきているのですが……、もっと高速にSQLを書き換えられないものでしょうか。
-質問のために一部SQLを変更していましたが、自己検証を繰り返しているうちに端折っているINSERT文＋INの組み合わせが非常に時間を掛けていることが分かってきました。この点も踏まえてコメントをいただけるとありがたいです。
+質問のために一部SQLを変更していましたが、自己検証を繰り返しているうちに端折っているINSERT文＋INの組み合わせが非常に時間を掛けていることが分かってきました。この点も踏まえてコメントをいただけるとありがたいです。
+master, web_list, tel_listのidを主キーにして速度が上がりました。しかしながら、まだかなり遅い印象で、まだ速くなる余地はないでしょうか。（tell_list, web_list共に2万件で1分ほど掛かります）

21 74 343

masterにもインデックスはなかったため修正。update対象が0件でも異様に時間が掛かります

2016/09/17 21:05

投稿

cnx

スコア19

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -2,7 +2,7 @@
 web_list, tell_listと名前を付けています。
 どちらも同じ構造ですが意味合いが異なっています。
-masterにはインデックスがありますが、web_list, tel_listにはインデックスはありません。
+master, web_list, tel_listにはインデックスはありません。
 idは自動採番、insertedは秒単位で全くバラバラです。nameは全体の2割ほどが複数回重複して含まれています。
 ここで、web_listを上から順番に見ていって、あるレコード（例えばid=n）について【条件1】insertedが後ろ3日（259200秒）以内でかつ【条件2】nameが同一のレコードがあるもののidを抜き出して、masterに付き合わせてflagをアプデートしようとしています。

21 74 343

質問のためselect \* masterとしましたが、update master〜でないと遅延の問題が起きないことが分かり修正しました。

2016/09/17 20:43

投稿

cnx

スコア19

title CHANGED Viewed

	@@ -1,1 +1,1 @@
1	- 「各レコードから見て後ろ3日以内で条件を満たすレコードが存在するもの」の一覧を高速に列挙するSQL
1	+ 「各レコードから見て後ろ3日以内で条件を満たすレコードが存在するもの」の結果一覧から高速にマスターをアップデートするSQL

body CHANGED Viewed

@@ -5,10 +5,10 @@
 masterにはインデックスがありますが、web_list, tel_listにはインデックスはありません。
 idは自動採番、insertedは秒単位で全くバラバラです。nameは全体の2割ほどが複数回重複して含まれています。
-ここで、web_listを上から順番に見ていって、あるレコード（例えばid=n）について【条件1】insertedが後ろ3日（259200秒）以内でかつ【条件2】nameが同一のレコードがあるもののidを抜き出して、masterから情報を**in**を使って列挙しようとしています。
+ここで、web_listを上から順番に見ていって、あるレコード（例えばid=n）について【条件1】insertedが後ろ3日（259200秒）以内でかつ【条件2】nameが同一のレコードがあるもののidを抜き出して、masterに付き合わせてflagをアプデートしようとしています。
 ```SQL
-select * from master where id in (
+update master set flag=1 where id in (
      select id from web_list as wlst
            where
                  0 < (select count(id) from tell_list as tlst
@@ -24,4 +24,6 @@
 と、書いて結果は得られるのですが非常に遅く、ネットなどで検索するとMySQLのin＋サブクエリーは遅いのでjoinに書き換えた方が良いといった意見なども見受けられました。
 AWSのRDS（large）などでテストしても各テーブルが数千件を超えるとまともに結果が返却されない（数十分かかってタイムアウト）といった状態です。
-nameが同一で、3日以内のレコードが1件以上存在する（0<）ということを条件にしてweb_listからidを列挙してきているのですが……、もっと高速にSQLを書き換えられないものでしょうか。
+nameが同一で、3日以内のレコードが1件以上存在する（0<）ということを条件にしてweb_listからidを列挙してきているのですが……、もっと高速にSQLを書き換えられないものでしょうか。
+質問のために一部SQLを変更していましたが、自己検証を繰り返しているうちに端折っているINSERT文＋INの組み合わせが非常に時間を掛けていることが分かってきました。この点も踏まえてコメントをいただけるとありがたいです。

21 74 343

分かりやすくしようと前後3日かつbetweenを使う形にしましたが、自分を含んでしまうため実際に試したSQLと条件に則した条件とSQLに戻しました

2016/09/17 20:41

投稿

cnx

スコア19

title CHANGED Viewed

	@@ -1,1 +1,1 @@
1	- 「各レコードから見て前後3日以内で条件を満たすレコードが存在するもの」の一覧を高速に列挙するSQL
1	+ 「各レコードから見て後ろ3日以内で条件を満たすレコードが存在するもの」の一覧を高速に列挙するSQL

body CHANGED Viewed

@@ -5,7 +5,7 @@
 masterにはインデックスがありますが、web_list, tel_listにはインデックスはありません。
 idは自動採番、insertedは秒単位で全くバラバラです。nameは全体の2割ほどが複数回重複して含まれています。
-ここで、web_listを上から順番に見ていって、あるレコード（例えばid=n）について【条件1】insertedが前後3日（259200秒）以内でかつ【条件2】nameが同一のレコードがあるもののidを抜き出して、masterから情報を**in**を使って列挙しようとしています。
+ここで、web_listを上から順番に見ていって、あるレコード（例えばid=n）について【条件1】insertedが後ろ3日（259200秒）以内でかつ【条件2】nameが同一のレコードがあるもののidを抜き出して、masterから情報を**in**を使って列挙しようとしています。
 ```SQL
 select * from master where id in (
@@ -14,9 +14,10 @@
                  0 < (select count(id) from tell_list as tlst
                        where
                           wlst.name = tlst.name
-                 	  and
+                          and
+                          wlst.inserted < tlst.inserted
+                          and
-                          tlst.inserted between wlst.inserted - 259200
+                                   tlst.inserted < wlst.inserted + 259200)
-                                            and wlst.inserted + 259200)
                       )
 );
 ```

21 74 343