集計関数を利用した場合のORDER BY高速化

Question

###前提・実現したいこと
ORDER BYをつけると激遅になります。
これを解決する方法はありませんか？

今のテーブルは500万行ですが、今後も増え続けます。

```SQL
SELECT
	accounts.id,
	COUNT(CASE accounts.item WHEN 1 THEN 1 END) as count1,
	COUNT(CASE accounts.item WHEN 2 THEN 1 END) as count2
FROM
	accounts
GROUP BY
	accounts.id
LIMIT 10000;
-- Duration for 1 query: 0.063 sec. (+ 1.078 sec. network)
```

```SQL
SELECT
	accounts.id,
	COUNT(CASE accounts.item WHEN 1 THEN 1 END) as count1,
	COUNT(CASE accounts.item WHEN 2 THEN 1 END) as count2
FROM
	accounts
GROUP BY
	accounts.id
ORDER BY
	count1,
	count2
LIMIT 10000;
-- Duration for 1 query: 40.610 sec. (+ 0.078 sec. network)
```
###補足情報(言語/FW/ツール等のバージョンなど)
- MariaDBのバージョン
Ver 15.1 Distrib 10.1.11-MariaDB, for Linux (x86_64) using readline 5.1
- テーブルのインデックス
```accounts.id```と```accounts.item```にINDEXはついています。
それぞれ単独でのキーをつけています。
- 実行計画（EXPLAINの結果）

![イメージ説明](f95c4bfb3177611015f06b28b55c836e.png)

- 複合キーを付けた場合（2016/05/17 14:02追記）
id, itemの順に複合キーをつけた場合早くなりました。
Duration for 1 query: 6.688 sec. (+ 1.406 sec. network)
しかし、1秒台ぐらいには抑えたいと思っております。

Accepted Answer

DB 設計にそれほど詳しくないので、他のよい回答がなされることを期待しておりますが、高速化するための一つの方策は正規化レベルを落とすことではないかと思います。

今回の SQL を発行する場合、全レコードをなめないと `COUNT()` の値が出ませんし、それに基づいたソートもできないことになりますので、件数が増えると (主にソート処理で) さらに激重になると予想されます。

もし、データ登録時の時間が多少増えてもよいのであれば、`count1`、`count2` 相当は別テーブルに集計し (たとえば、`count` テーブルに `key` カラムと `value` カラムがある、とか)、`SELECT` 時は `JOIN` するとよいのではないでしょうか。
データ登録時にかかる時間との兼ね合いになりますが、おそらく `count1`, `count2` 相当のレコードにはインデックスを張り、場合によっては `accounts` テーブルの `INSERT` にトリガを設定して `count` テーブルを自動更新するとかも (MariaDB にトリガがあるのかは知りませんけれども)。

Answer

MySQLの設定ファイル(my.cnf/my.ini)にsort_buffer_sizeという設定がありますので、
メモリをガンガンつかってもよいのであれば、これを拡張しても高速化が見込めるかと。

Answer

`CREATE TEMPORARY TABLES`権限が必要となりますが、インデックス付きの一時テーブルを利用してみてはいかがでしょうか？
[https://mariadb.com/kb/en/mariadb/create-table/](https://mariadb.com/kb/en/mariadb/create-table/)

例えば、以下のような感じです。
```sql
CREATE TEMPORARY TABLE tmp (
    id INT NOT NULL,
    count1 INT NOT NULL,
    count2 INT NOT NULL,

    INDEX (count1, count2)
);

INSERT INTO tmp SELECT
    accounts.id,
    COUNT(CASE accounts.item WHEN 1 THEN 1 END) as count1,
    COUNT(CASE accounts.item WHEN 2 THEN 1 END) as count2
FROM
    accounts
GROUP BY
    accounts.id;

SELECT id, count1, count2 FROM tmp ORDER BY count1, count2 LIMIT 10000;
```

Answer

ソート対象のレコード数が多いですね。

以下のSQLは全く同じ環境・テーブルで試したわけではないのでダメだったらスルーして下さい。
(こちらでは130万レコード程度で試しました)

```SQL
SELECT
    tmp_accounts.id,
    tmp_accounts.count1,
    tmp_accounts.count2
  FROM (SELECT accounts.id,
               COUNT(CASE accounts.item WHEN 1 THEN 1 END) as count1,
               COUNT(CASE accounts.item WHEN 2 THEN 1 END) as count2
          FROM
            accounts
          GROUP BY
            accounts.id
          LIMIT 10000) as tmp_accounts
  ORDER BY
    tmp_accounts.count1,
    tmp_accounts.count2 ;
```

Answer

Limit10000としていますが、上位10000には明らかに届かない値がわかっているなら、それをあらかじめ省いてソート対象行を減らすなどどうでしょう？

例えばcount1の平均値以上は上位10000件には絶対に含まれない場合、次のようなイメージです。
※実際に環境を準備できないので、早くなるのかわかりません...
(また動作テストもしていません。AVGの中でサブクエリ動作しましたっけ？)
```SQL
SELECT
    accounts.id,
    COUNT(CASE accounts.item WHEN 1 THEN 1 END) as count1,
    COUNT(CASE accounts.item WHEN 2 THEN 1 END) as count2
FROM
    accounts
GROUP BY
    accounts.id
HAVING COUNT(CASE item WHEN 1 THEN 1 END) < AVG(
    SELECT COUNT(item)
    FROM accounts
    WHERE item = 1
)
ORDER BY
    count1,
    count2
LIMIT 10000;
```

Answer

私はMySqlでそこまでの件数を扱ったことがないのでやったことがないのですが、Order byにもインデックスが使われるのではなかったでしょうか。

count1とcount2の複合インデックスを試してみられてはどうでしょう。

関連した質問