Mysqlにて大量データからデータ取得する

Question

MYSQLにて大量データから一部を取得する方法について質問です

現時点のテーブル構造はいかになります

```
CREATE TABLE `table` (
  `id` varchar(64)  NOT NULL,
  `code` varchar(64)  NOT NULL,
  `comment` varchar(64)  NOT NULL,
  `creat_date` datetime(3) NOT NULL,
  `update_date` datetime(3) NOT NULL,
  PRIMARY KEY (`id`,`code`),
  KEY `idx_comment_code` (`comment`,`code`),
  KEY `idx_updated_at` (`update_date`)
) 
```
上記のようなテーブル構造のテーブルがあります
codeは任意のcodeが入っている(例えばA~Eまでがとある条件によって指定されている感じです)
commentは一意の値が入っているが例外的に同じcommentも入ることがある

上記のような条件でデータが約5000万件あるとして下記条件で取得したいと考えています
1.codeを条件にcodeごとのcommentの数を知りたい(codeごとの全体数が知りたい)
2.codeを条件に重複したcommentを1としcodeごとのcomment数が知りたい

純粋に
```ここに言語を入力
select count(code) from table where code="A"
select count(distinct comment) from table where code="A"
```
とした場合取得するまでに時間がかかってしまいます
こちらをいかに早く取得できる方法はありますでしょうか？
宜しくお願いいたします。

Answer

where code="A" によって対象件数を10分の1以下に絞れるなら、code にインデックスを付けるのがよろしいかと。

逆に、where code="A" を指定しても２分の1程度にしか絞れないとかだと、全件検索の方が速かったりします。

Answer

> select count(code) from table where code="A"
> select count(distinct comment) from table where code="A"

上記のSELECT文であれば code にインデックスを設定してください。
現行とインデックスを設定した後で実行計画を確認したり、処理時間を測定してみては？

Answer

> codeは任意のcodeが入っている(例えばA~Eまでがとある条件によって指定されている感じです)

でしたら、codeにインデックスを入れるのが妥当な解決策かと思います。

Answer

データ数が多いならそのテーブルを参照する以上は時間がかかるのは避けられないことです（適切にインデックス貼られていたとしても）

リアルタイム性が不要なら実績集計してある時点の結果を保持するテーブルを持ち、バッチで集計した結果を登録するようにしておけば時間はかからないでしょうけど、リアルタイム性が必要なのであれば、データテーブルを直接参照する以上は大きな効果は得られないと思います。

関連した質問