MysqlのSELECT句中でサブクエリのWHERE条件

Question

例えば下記のような２つのテーブルがあるとします。

Stock（在庫テーブル）

```SQL
CREATE TABLE `Stock` (
	`stock_id` INT(11) NOT NULL AUTO_INCREMENT,
	`location_id` INT(11) NULL DEFAULT NULL,
	`product_id` INT(11) NULL DEFAULT NULL,
	`stock_num` INT(11) NULL DEFAULT NULL,
	PRIMARY KEY (`stock_id`),
	INDEX `location_id` (`location_id`, `product_id`)
)
COLLATE='utf8_general_ci'
ENGINE=InnoDB
;
```

|stock_id|location_id|product_id|stock_num|
|:--|:--:|--:|
|1|100|1000|5|
|2|101|1001|3|
|3|102|2000|1|
|4|103|1000|1|
|5|104|3000|4|
|6|103|1001|3|
|7|100|1001|2|
|8|101|2000|4|

BoughtStock（購入在庫）
```SQL
CREATE TABLE `BoughtStock` (
	`stock_id` INT(11) NULL DEFAULT NULL,
	`bought_num` INT(11) NULL DEFAULT NULL,
	INDEX `stock_id` (`stock_id`)
)
COLLATE='utf8_general_ci'
ENGINE=InnoDB
ROW_FORMAT=COMPACT
;
```
※購入されるたびにレコードが挿入される（stock_idは重複する）
|stock_id|bought_num|
|:--|--:|
|1|1|
|1|1|
|4|1|
|1|1|
|2|1|
|2|1|
|3|1|

このデータから↓のような結果を抽出しようとしています。
・ロケ、商品ごとの在庫総数
・引当総数（購入点数）：そのロケのその商品が何点購入されているのかを抽出
・ロケ内総在庫数（商品問わず）：ロケ内の在庫を全商品ですべて合算する

|ロケーションID|商品ID|在庫数|引当総数|ロケ内総在庫数|
|:--|:--:|--:|
|100|1000|5|3|7|
|100|1001|2|0|7|
|101|1001|3|2|7|
|101|2000|4|0|7|
|102|2000|1|1|1|
|103|1000|1|1|4|
|103|1001|3|0|4|
|104|3000|4|0|4|

```SQL
SELECT
	  stk.location_id AS 'ロケーションID'
	, stk.product_id AS '商品ID'
	, SUM(stk.stock_num) AS '在庫数'
	, IFNULL((SELECT SUM(bst.bought_num) FROM BoughtStock bst WHERE bst.stock_id = stk.stock_id), 0) AS '引当総数'
	, (SELECT SUM(stk2.stock_num) FROM Stock stk2 WHERE stk2.location_id = stk.location_id) AS 'ロケ内総在庫数'
FROM Stock stk
GROUP BY stk.location_id, stk.product_id
ORDER BY stk.location_id, stk.product_id
```

実行計画
|id|select_type|table|type|possible_keys|key|key_len|ref|rows|Extra|
|:--|:--:|--:|
|1|PRIMARY|stk|index||location_id|10||8||
|3|DEPENDENT SUBQUERY|stk2|ref|location_id|location_id|5|func|1|Using where|
|2|DEPENDENT SUBQUERY|bst|ref|stock_id|stock_id|5|func|1|Using where|


上記のSQLで**結果自体は問題ありません**し、EXPLAINで実行計画を取得しても**インデックスも効いている**のですが
実際何千行の大量データで抽出すると**著しく速度が低下**します。

SELECT句のサブクエリの項目を外すと速度は低下しません。

もしかしてSELECT句でサブクエリを使用する場合、上記SQLのような条件の書き方ではインデックスが効かない仕様なのでしょうか。

また、速度低下せずに抽出できるSQLを考案可能な方がいらっしゃいましたらご教示いただきたいです。
※BoughtStockはstock_idの重複があるため、単純なLEFT JOINでは「在庫数」など他の集計項目が倍々になります。

何卒宜しくお願い致します。

Accepted Answer

`引当総数`や`ロケ内総在庫数`は`location_id`と`product_id`の組み合わせで一意であったり、値が変わらない為、MySQLの仕様（[12.19.3 MySQL での GROUP BY の処理](https://dev.mysql.com/doc/refman/5.6/ja/group-by-handling.html)）によって容認された結果に過ぎません。
※他のDBMSなら文法エラー
説明します。
先ず集計前の状態の以下のSQLは正しい結果だと思います。
```SQL
SELECT location_id, product_id, stock_num
     , IFNULL((SELECT SUM(bst.bought_num) FROM BoughtStock bst WHERE bst.stock_id = stk.stock_id), 0) AS '引当総数'
     , (SELECT SUM(stk2.stock_num) FROM Stock stk2 WHERE stk2.location_id = stk.location_id) AS 'ロケ内総在庫数'
FROM Stock
```
これを、`location_id`, `product_id`単位で集計としていますが、じゃあ、`引当総数`と`ロケ内総在庫数`はどんな集計されているの？って事です。これらは集計されず適当な何れかの値が採用されています。
相関問い合わせなので、それらの相関内の何れかの値が使用されていますが、何れも同じ値なので、求めたいものと同じになっているに過ぎません。

結果的にサブクエリーをさらに集計するような仕組みが働いて、遅いのではないかと思われます。
基本に忠実に、SQLを組み立てると、必要なインデックスも明確になると思います。

性能が改善するかどうかわかりませんが、素直にキーを揃えるように組み立てると以下のようなSQLになるのではないかと。
```SQL
select stk.location_id AS 'ロケーションID'
     , stk.product_id AS '商品ID'
     , stk.prdct_stock_sum AS '在庫数'
     , coalesce(stk.prdct_bought_sum, 0) AS '引当総数'
     , stk_loc.loc_stock_sum AS 'ロケ内総在庫数'
from (
        select location_id, product_id, sum(stk_stock_sum) as prdct_stock_sum, sum(bought_sum) as prdct_bought_sum
        from (
                select location_id, product_id, stock_id, SUM(stock_num) AS stk_stock_sum
                FROM Stock stk
                group by location_id, product_id, stock_id
            ) stk 
            left join (
                select stock_id, SUM(bought_num) as bought_sum FROM BoughtStock group by stock_id
            ) bst
            on  stk.stock_id=bst.stock_id
        group by location_id, product_id
    ) stk inner join (
        select location_id, sum(stock_num) as loc_stock_sum from Stock group by location_id
    ) stk_loc
    on  stk.location_id=stk_loc.location_id
ORDER BY stk.location_id, stk.product_id
```
```DATA
CREATE TABLE Stock(stock_id int, location_id int, product_id int, stock_num int);
INSERT INTO Stock(stock_id, location_id, product_id, stock_num)
VALUES
    (1, 100, 1000, 5),
    (2, 101, 1001, 3),
    (3, 102, 2000, 1),
    (4, 103, 1000, 1),
    (5, 104, 3000, 4),
    (6, 103, 1001, 3),
    (7, 100, 1001, 2),
    (8, 101, 2000, 4)
;
CREATE TABLE BoughtStock(stock_id int, bought_num int);
INSERT INTO BoughtStock(stock_id, bought_num)
VALUES
    (1, 1),
    (1, 1),
    (4, 1),
    (1, 1),
    (2, 1),
    (2, 1),
    (3, 1)
;
```

Answer

###stockテーブルの問題点

もし重複するのが困るなら、
insert into
を使わないことと、
なにが唯一(
primary keyなのかがはっきりしていないですよ。

もしまだ表の再構築が可能ならcreate tableを実行して、どのカラム（列）を唯一にするのか設定しなおしてください。

もし、際構築が不可能なら、
alter table
で唯一を設定してください。

もしくは唯一がすでに設定されているなら質問本文を修正してください。

###現状での対策

現状ではhavingやgrouping区を使って対処するしかない気がします。

関連した質問