【MySQL】約１５万件のテーブルになってからクエリが遅くなりました。テーブル設計とクエリを公開しますのでアドバイスお願いしたいです。

Question

データ量が１０万件を超えてきてからだんだん処理が遅くなり、１５万件になったころには３秒ほど処理速度が遅くなってしまいました。
トップページで行っている処理なので、この遅さは大きな問題になっています。
しかし、自分で各項目にインデックスをつけたり、クエリを変更したりしても改善されることがなかったので、皆さんのお力をお借りしたいです。
各テーブルの設計と、クエリを記載しますので、どうかアドバイスをお願いします。
※サイトの特定回避のため、ここでは内容を変えて説明します。クエリ自体はほぼ一緒です。

MySQLバージョン:5.6.22

**t_syumi[InnoDB] 趣味テーブル**
syumi_id(autoincrement),syumi_name データ数約2000件 ※syumi_idがプライマリキー
1,スポーツ
2,読書
3,映画鑑賞
4,音楽
…………等

**t_user[InnoDB] ユーザーテーブル** データ数約6000件
user_id(autoincrement),user_name ※user_idがプライマリキー
1,田中一郎
2,山口明子
3,佐藤俊哉
4,鈴木太郎
…………等

**t_setting[InnoDB] 趣味設定テーブル ** データ数約6000件
※一人で複数の趣味を持っている場合もあります
set_id(autoincrement),user_id,syumi_id **※set_idがプライマリキー,user_id,syumi_idに複合ユニークキー制約があります**
1,1,4
2,1,2
3,2,1
4,3,2
…………等

**t_petlist[InnoDB] ユーザーの飼っているペットの名前テーブル** データ数約150000件
※一人で複数のペットを飼っている場合もあるため、一人で複数登録されている場合もあります
pet_id(autoincrement),user_id,pet_name **※pet_idがプライマリキー,user_id,pet_nameに複合ユニークキー制約があります**
1,1,ポチ
2,1,ハチ
3,2,まろ
4,3,ジロー
…………等

使用するテーブルは以上です。
クエリは、**「趣味別で飼っているペットの名前の種類数を表示」**です。

```SQL
SELECT syumi_id,syumi_name,COUNT(DISTINCT(pet_name)) AS cnt 
FROM t_petlist
INNER JOIN t_setting ON t_petlist.user_id = t_setting.user_id
INNER JOIN t_syumi ON t_syumi.syumi_id = t_setting.syumi_id
GROUP BY syumi_id
ORDER BY cnt DESC
```
各カラムは、左から「趣味ID」「趣味の名前」「その趣味の人が飼っているペットに名付けた名前の種類数」になります。

結果は
1,スポーツ,5431
2,読書,4480
4,音楽,4398
...といった結果が出力されます。
このクエリが約3秒ほどかかってしまいます。
目標は1秒を切りたいと考えています。

**EXPLAIN実行結果**
![イメージ説明](276c873480929a313895f7654fec115b.jpeg)


重くしている部分は、COUNT(DISTINCT(pet_id))で、DISTINCTを外すと0.5秒もかからないほど早くなります。
ただ、今回カウントしたいのは、「その趣味の人が飼っているペットに名付けた名前の種類数」なので、
スポーツが趣味の人で、その中の5人がペットに「ポチ」と名付けた場合は、その重複は除かなくてはいけません。

いろいろインデックスをつけたり外したり試してみましたが、どれも大体3秒ほどかかってしまいます。
既に大量のデータが入っている上、なるべく早めの対応が必要となりますので、テーブル設計から1から作り直すのは厳しいです。
とりあえずは、「インデックス操作」「クエリの変更」など、大きな変更を加えなくてもよい範囲でどなたかご教示お願いしたいです。もちろん、テーブル設計のアドバイス等も頂けたらうれしいです。

何かご不明点があればお気軽に聞いてください。どなたかアドバイスお願い致します。

Accepted Answer

問題が`DISTINCT`句であることが特定できているようですので、以下のページが参考になるかもしれません。
[https://dev.mysql.com/doc/refman/5.6/ja/distinct-optimization.html](https://dev.mysql.com/doc/refman/5.6/ja/distinct-optimization.html)

また、"情報の追加・修正の依頼をする"欄に記載させていただいた情報を追記いただけると、より詳しい状況がわかるので、具体的な回答を得やすくなると思います。

---

情報の追記、ありがとうございます。

一見したところ、インデックスのつけ方は問題ないように見受けます。

こちらで15万件ものデータを投入した環境を用意することができないので、
以下に、同様の結果を得られ（ると思う）、かつパフォーマンスの改善が見込めそうなクエリを
いくつか挙げさせていただきます。

#### ケース1 : JOINする順番を変更（レコードの少ないテーブルからJOIN）
```sql
SELECT t_syumi.syumi_id, syumi_name, COUNT(DISTINCT pet_id) AS cnt
FROM t_syumi INNER JOIN t_setting ON t_syumi.syumi_id = t_setting.syumi_id 
INNER JOIN t_petlist ON t_setting.user_id = t_petlist.user_id 
GROUP BY t_syumi.syumi_id 
ORDER BY cnt DESC
;
```

#### ケース2 : ケース1に加えて、`DISTINCT`句を排除
```sql
SELECT t_syumi.syumi_id, syumi_name, COUNT(pet_id) AS cnt 
FROM t_syumi 
INNER JOIN t_setting ON t_syumi.syumi_id = t_setting.syumi_id 
INNER JOIN t_petlist ON t_setting.user_id = t_petlist.user_id 
GROUP BY t_syumi.syumi_id 
ORDER BY cnt DESC
;
```

#### ケース3 : ケース2に加えて、レコード数を絞り込んでからJOIN（hirohiro様の回答と同様）
```sql
SELECT t_syumi.syumi_id, syumi_name, cnt 
FROM t_syumi INNER JOIN (
    SELECT syumi_id, COUNT(*) AS cnt FROM t_setting 
    INNER JOIN t_petlist ON t_setting.user_id = t_petlist.user_id 
    GROUP BY syumi_id
) AS tmp ON t_syumi.syumi_id = tmp.syumi_id 
ORDER BY cnt DESC
;
```

#### ケース4 : ケース3に加えて、`FORCE INDEX`句を使用
[https://dev.mysql.com/doc/refman/5.6/ja/index-hints.html](https://dev.mysql.com/doc/refman/5.6/ja/index-hints.html)
```sql
SELECT t_syumi.syumi_id, syumi_name, cnt 
FROM t_syumi INNER JOIN (
    SELECT syumi_id, COUNT(*) AS cnt FROM t_setting 
        FORCE INDEX FOR GROUP BY (syumi_id) 
    INNER JOIN t_petlist ON t_setting.user_id = t_petlist.user_id 
    GROUP BY syumi_id
) AS tmp ON t_syumi.syumi_id = tmp.syumi_id 
ORDER BY cnt DESC
;
```

どうしても改善できない場合、苦肉の策として、Javascriptなどを使って問題のデータを非同期で取得する、とかでしょうか。。

ちなみに、ご提示のクエリだとペットを飼っている人が１人もいない趣味は結果に含まれないことになりますが、
それは問題ないでしょうか？

---

`FORCE INDEX`が聞いたということでしたら、以下２通りのクエリを試していただけますでしょうか？
```sql
SELECT t_syumi.syumi_id, t_syumi.syumi_name, tmp.cnt 
FROM t_syumi 
INNER JOIN (
    SELECT syumi_id, COUNT(DISTINCT pet_name) AS cnt 
    FROM t_petlist 
        FORCE INDEX FOR GROUP BY (pet_name) 
    INNER JOIN t_setting ON t_setting.user_id = t_petlist.user_id 
    GROUP BY syumi_id 
) AS tmp ON t_syumi.syumi_id = tmp.syumi_id 
ORDER BY cnt DESC;
```

```sql
SELECT t_syumi.syumi_id, t_syumi.syumi_name, tmp.cnt 
FROM t_syumi 
INNER JOIN (
    SELECT syumi_id, COUNT(DISTINCT pet_name) AS cnt 
    FROM t_setting 
        FORCE INDEX FOR GROUP BY (syumi_id) 
    INNER JOIN t_petlist ON t_setting.user_id = t_petlist.user_id 
    GROUP BY syumi_id 
) AS tmp ON t_syumi.syumi_id = tmp.syumi_id 
ORDER BY cnt DESC;
```

Answer

t_petlist の pet_id は primary ですよね？
それが重複...ですか？

その趣味の人がつけた名前の種類数　=>  t_petlistの pet_id は重複しないため、user_idからsyumi_idをjoinしたt_petlistでsyumi_idをgroup_byした時のcount(pet_id)ではないでしょうか。

Answer

手元に試せる環境がないため言葉での説明だけになってしまいますことご了承ください。
単にJOINするとレコード全体を結合してしまうので、最終的に抽出される１レコードのサイズが大きくなってしまい、レスポンス悪化の原因になるかもしれません。
SELECT文を用いて必要なカラムだけに限定すると良いと思います。

Answer

```SQL
SELECT b.syumi_id, s.syumi_name, b.cnt
FROM (
  SELECT symi_id, pet_id, COUNT(pet_id) AS cnt
  FROM t_petlist
  INNER JOIN t_setting ON t_petlist.user_id = t_setting.user_id
  GROUP BY syumi_id, pet_id
) b
INNER JOIN t_syumi s ON s.syumi_id = b.syumi_id
ORDER BY b.cnt DESC
```
こんなSQLだとどうでしょう？
syumi_idとpet_idにindexがあればそれなりに早いのではないかと思うのですが...

オプティマイザがどのように実行計画を作っているかわからないため確かなところは解りませんが、
1. 最後のjoinは趣味の名前を得るためだけに数十万件のレコードに名前をくっつけているかも知れません。上のSQLならサブクエリの結果は6000レコード以下です。
2. COUNTでdistinctを実行してるので、6000回以上groupとソートを実行しているかも知れません。

Answer

mysqlはあまり使ったことがありませんが、
そのクエリをviewにしておいて、それをselectするようにすれば少しは早くなるんじゃないでしょうか？

---
**追記**

```SQL
SELECT syumi_id,syumi_name,COUNT(pet_id) AS cnt
FORM
  (
  SELECT DISTINCT
    syumi_id, syumi_name, pet_id
  FROM 
    t_petlist
    INNER JOIN t_setting ON t_petlist.user_id = t_setting.user_id
    INNER JOIN t_syumi ON t_syumi.syumi_id = t_setting.syumi_id
   ) tbl
GROUP BY syumi_id
ORDER BY cnt DESC
```

ケース1 : JOINする順番を変更（レコードの少ないテーブルからJOIN）

ケース2 : ケース1に加えて、DISTINCT句を排除

ケース3 : ケース2に加えて、レコード数を絞り込んでからJOIN（hirohiro様の回答と同様）

ケース4 : ケース3に加えて、FORCE INDEX句を使用

関連した質問

ケース2 : ケース1に加えて、`DISTINCT`句を排除

ケース4 : ケース3に加えて、`FORCE INDEX`句を使用