ORDER BY RAND(); が遅い

Question

### 質問
タイトルの通りなのですが、
MariaDBにおいて``ORDER BY RAND()``が非常に遅いため改善を試みましたが、
上手くいかなかった為、
「どうすれば結果取得までの時間を短縮し、CPU使用率を低くできるか」を質問させてください。


### やりたいこと
``accounts``テーブルからランダムに10個``name``を取得したい。

条件
* ``del_flg``が0のみ取得。
* ``creation_time``が毎日AM 00:00より前のものを取得

※クエリは多くて1秒間に10回程度実行される場合があります。

### 試したこと
###### その1
処理時間 11.469秒
非常に重い。
DBサーバのCPU使用率が跳ね上がるため利用できない。
```SQL
SELECT
  name
FROM
  accounts
WHERE
  del_flg = 0 AND
  creation_time < '2016/10/29 00:00'
ORDER BY
  RAND()
LIMIT 10;
```

###### その2
[こちら](http://d.hatena.ne.jp/steel-plate/20110227/1298804869)を参考にしてSQLを変更しました。
処理時間 28.422秒
悪化しました。
```SQL
SELECT
  name
FROM
  accounts AS tbl,
  (
    SELECT
      id
    FROM
      accounts
    WHERE
      del_flg = 0 AND
      creation_time < '2016/10/29 00:00'
    ORDER BY
      RAND()
    LIMIT 10
  ) AS tmp_tbl
WHERE
  tbl.id = tmp_tbl.id;
```

###### その3
[こちら](http://qiita.com/iri/items/b82795b6a3c0a8df62a5#inner-join-on-id--id-1)を参考にしました。
処理時間 0.015秒
``INNER JOIN ON id >= id``と書かれている項目のものを利用してSQLを作りました。
しかし、``user_id``がほぼ乱数に近い飛び飛びな値（700,000,000～999,999,999でランダム）の為、
``SELECT CEIL(RAND() * (SELECT MAX(`user_id`) FROM `accounts`))``
で得られる結果は``700,000,000``以上になることはほぼ無く、
ランダム性能が悪く使い物になりませんでした。
何十回実行しても連続で結果が同じ場合がありました。

SQLは省略します。


###### その4
WHEREの条件がマズいので、場合によっては10件以下が取得される場合があります。
10件以下を取得してしまう可能性があるので使えませんが、自分が色々試した中で最速でした。
処理時間 1.328秒
```SQL
SELECT
  name
FROM
  accounts,
  (SELECT id FROM accounts ORDER BY RAND() LIMIT 10) AS tmp_tbl
WHERE
  accounts.creation_time < '2016/10/29 00:00' AND
  accounts.del_flg = 0 AND
  accounts.id = tmp_tbl.id;
```

### 対象テーブル
* データ数300万件（随時増えています）
* ``user_id``は値が飛び飛び（700,000,000～999,999,999でランダム）
* ``name``はユーザー名
* ``del_flg``は0が削除されていない。1が削除済み。
* ``creation_time``は``accounts``テーブルにデータが挿入された日時
```SQL
CREATE TABLE `accounts` (
  `user_id` INT(11) NOT NULL,
  `name` VARCHAR(36) NOT NULL,
  `del_flg` TINYINT(1) NOT NULL DEFAULT '0',
  `creation_time` TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP,
  PRIMARY KEY (`user_id`),
  INDEX `name` (`name`),
  INDEX `del_flg` (`del_flg`),
  INDEX `creation_time` (`creation_time`)
)
COLLATE='utf8_general_ci'
ENGINE=InnoDB;
```

### DBサーバ
* CentOS 7.2.1511
* MariaDB Version 15.1

Answer

もう解決されてるかもしれませんが、回答しておきます。


> その1

⇒RAND()で時間がかかっているのは、
creation_time < '2016/10/29 00:00'
でヒットする件数分（１０万件分くらい？）の
RAND()を発生させて、ソートしているため、
CPUも非常に時間がかかります。


> その2

⇒その１の時間で抽出した１０件に対して、
tbl.id = tmp_tbl.id;
で抽出しています。
実際の動作は、
tbl.id = Xの結果を
UNION ALLで１０回繰り返しているので、
SQLの解析時間もあり、その１より使い物にならない状態になっています。


> その3

⇒SQLが省略されているので、省略


> その4

⇒RAND()の発生回数を減らす対策の考え方として良いと思います。
 もう一息！という感じですね。
 他のSQLの結果から察すると、
 accounts.id = tmp_tbl.id
 にも時間（主にSQL解析時間と予想）がかかってそうです。


> どうすれば結果取得までの時間を短縮し、CPU使用率を低くできるか
> 悪くても0.5秒ぐらいで取得したい

⇒以下のような考え方でCPU使用率を低く、０．５秒くらいで取得できると思います。

案１）抽出条件にヒットする２０～１００件を（ORDER BY creation_time 等のINDEXに存在する項目で）先に取得し、
   その結果に対してRAND()を発生させて、１０件取得する。

   ⇒INDEX破損がなければ、予想としては０．３秒程度です。

案２）案１において、update_time項目を追加し、その項目をソート項目とする。
   （毎回同じ１００件の中からランダムに選ぶのを防げる）

Answer

英語サイトで申し訳ないですが、
[こちら](https://www.warpconduit.net/2011/03/23/selecting-a-random-record-using-mysql-benchmark-results/)の「**Order By Rand() Alternative Method**」の項のSQLはどうでしょうか。

要件を満たす速度になるかは分かりませんが、
普通のORDER BY RAND()よりは速く動作するかも？
```SQL
SELECT
    name
FROM
    accounts
WHERE
    del_flg = 0
AND creation_time < '2016/10/29 00:00'
AND RAND() < (SELECT (10 / COUNT(*)) * 10) FROM accounts WHERE del_flg = 0 AND creation_time < '2016/10/29 00:00') 
ORDER BY
    RAND()
LIMIT
    10
```

これプラスαでdel_flg、create_time、nameに対して複合インデックスを定義すると尚良さそう。

Answer

`del_flg`と`creation_time`に複合インデックスが張ってあるという前提で、以下のようなクエリではいかがでしょうか？ ```sql SELECT @rate := ((10 * 1.00000000000) * 2) / COUNT(*) # 余裕を持たせるため、2倍のレートを設定する FROM accounts WHERE del_flg = 0 AND creation_time < CURDATE(); SELECT * FROM ( SELECT name FROM accounts WHERE del_flg = 0 AND creation_time < CURDATE() AND RAND() <= @rate ) AS tmp ORDER BY RAND() LIMIT 10; ``` このクエリが何をしているかというと、 - まず、1つ目のSQL文で`@rate * "条件"を満たすレコードの件数 = 20`を満たす数値`@rate`を求め(※)、 - 2つ目のSQL文のサブクエリ内で、 "条件"を満たすレコードを`RAND() <= @rate`によって約20件に絞り込み、 - それを2つ目のSQL文のサブクエリの外側でランダムに並べ替え、さらに10件に絞り込むというわけです。 ※ `@rate`は[ユーザー定義変数](https://mariadb.com/kb/en/mariadb/user-defined-variables/)というものです。 `@rate`はリアルタイムに求める必要はない上に正確な数値である必要もないので、例えば日次のバッチ処理で計算した値を別のテーブルに格納しておくなどすれば、さらに速度の改善が見込めます。ただし、この方法には以下の欠点があります。 - 確実に10件、取得できるとは限らない。 -> 取得した行数をチェックし、10件に満たなければ 2つ目のSQL文をもう一度実行する、などで対処してください。もっとも、"条件"を満たすレコードの件数が十分に多ければ、滅多に起きることはないと思いますが。 - "条件"を満たすレコードの件数が極端に多くなると`@rate`が 0 に丸められてしまい、 10件に満たない件数しか取得できない可能性が高くなる。 -> プライマリーキーである`user_id`の型が INT(11) である限りは、問題ないはずです。 [MariaDBの符号付き INT型の最大値は 2147483647](https://mariadb.com/kb/en/mariadb/int/) で、私の手元の環境（MySQL5.7）で確認した限りでは `(10 * 1.00000000000) * 2 / 2147483647 = 0.000000009313226` となり、0 に丸められることはなかったからです。ご参考までに。

Answer

「その3」を改変して、

```
SELECT CEIL((SELECT MIN(`user_id`)) + RAND() * (SELECT MAX(`user_id`) - MINB(`user_id`) FROM `accounts`))
```

のようにしてみてはどうでしょうか（値のつまり具合で、均等にならないことは間違いないですが、MIN以下を拾うというのは避けられます）。

Answer

creation_time, del_flg, id で一つのインデックスを作って今までのSQLと比べてみては？