IN句に重複したデータを入れるとコストは変わるのか

MySQLのクエリのスロークエリの調査をしている中でIN句の中に重複したデータを突っ込んでいるクエリを発見しました。

クエリは以下のような感じです

SQL
1SELECT id, age, status
2FROM user
3WHERE name IN ("a", "b", "a", "c", "b", "a", "d", "e", "d",...);

重複の度合いとしては、IN句の中には約11万件入っており、重複を省くと1.6万件くらいになります。(およそ85%が重複)

ここできになるのが、重複を除いた状態でIN句に入れてあげることによってクエリの速度は改善するのかというところです。
MySQLがよしなに検索前に重複を省いていて、その重複を省くコストがそんなに大したことがないって落ちだとトータルの時間はそんなに変わらないなんてオチだと嫌だなと思い相談させていただきました。

現状、50秒というとんでもない時間がかかっているのですが、この重複を無くしてやることで早くなりますか？？

MySqlは5.7を使っています。

行動規範の内容に同意します

回答2件

ベストアンサー

inの効率の悪さはよく論じられていますからねぇ多分効率化できるでしょう。
テンポラリテーブルにユニークデータとして流し込んで
joinなり、existsなりで処理すると圧倒的に速くなると思います

投稿2018/10/12 10:25

yambejp

総合スコア114843

退会済みユーザー

2018/10/12 10:35

なるほど！ IN句ではなく、tmpテーブルにIN句のデータ突っ込んでJOINさせるってやり方はなんとなく早そうですね。

退会済みユーザー

2018/10/12 10:38

すみません！お気づきになったら教えて欲しいのですが、テンポラリテーブルってもしクラスターを組んでいる場合、レプリケーションってされるのでしょうか？

yambejp

2018/10/12 10:44

テンポラリをレプリケーションする？ってどういう状況でしょう？テンポラリはセッションが終了すると自動で削除されると思いますが・・・

退会済みユーザー

2018/10/12 10:49

なるほど。。。 http://download.nust.na/pub6/mysql/doc/refman/5.1/ja/replication-features-temptables.html ここを確認した感じだとRBRでのレプリケーションだと複製はされないようなことが書いてあったので、他のパターンだとレプリケーションされるのかと思ったのですが、ちょっと私の理解不足でした。

行動規範の内容に同意します