インデックスのカーディナリティについて

Question

MySQLのインデックスについて質問です。

カーディナリティの低いものにインデックスをつけるべきではない、と考えていたのですが
カーディナリティが低くても、対象テーブルのレコードの分布に偏りがある場合はインデックスを貼ると効果がでるのでしょうか。

例えば、商品の在庫表などで
販売ステータスという列があり、ステータスは「未販売」「販売済み」という種類があったとします。

普通に考えれば、このステータスカラムにインデックスを付けることはカーディナリティの低いと思いますが
販売済みステータスは増え続けるはずですので、時を経るごとに未販売ステータスのレコードが極端に少なくなります。

この場合、インデックスを貼ることで高速化が図れるのでしょうか。

ご回答よろしくお願いします。

Accepted Answer

データ件数が膨大で、一方に絞り込んだデータ郡に対する検索の頻度が利用方法の大多数を占めるなら効果はあると思います。
```sql
SELECT * 
FROM item 
WHERE st = 2 /* 未販売 */
AND price > 1000
```
このようなSQL発行が多く、未販売が100件程度で販売済みが数百万件のような場合、st（未販売or販売済み）にindexがあればSQLの実行自体は高速化されるでしょう。
「未販売」と「販売済み」を選り分ける作業がindexによってほぼ無くなる程度まで軽減されるので、この作業のコストが高ければ高いほど(つまりレコード件数が多いほど)効果があります。
そして(上記の設定のように)その選り分ける作業こそがそのSQLのコストの大半だったなら、高速化率も高くなります。

しかしこのような場合は、まず販売済みの古いデータを定期的にバックアップに移して省くことを検討したほうが良いかもしれません。あまりにレコードが多いとデータ登録時のindex作成も負担になってくるためです。(データ件数が膨大ということは登録や更新も頻繁に行われるということですし）

**追記**
ところで上記のような例でpriceにもindexがあり、全体に対する「price > 1000」が「st = 2」よりも少ないと簡単に予測できる場合、オプティマイザは「price > 1000」を先に実行するプランを選択するかも知れません。そうすると「st = 2」のために極少数のレコードのソートで済みstへのindexにあるなしに関わらず実行速度が殆ど変わらなかった。ということもあるかも知れません。

---
**以下の部分はコメントで指摘いただいた通り誤りで、極端に分布が偏った方を参照するのでない限りindexに意味は無いようです。**
> カーディナリティが低くても、対象テーブルのレコードの分布に偏りがある場合は

仮に偏りが無くても、また100:100万に対して100万の方を選択する絞込みだったとしても、ソートが必要になる時点でindexには意味が出てくるように思います。
そして絞込みや検索には大抵ソートが必要です。(たぶん)
カーディナリティが高い例えばユニークidのような要素だと、indexはその要素を条件にした結合などの操作にも威力を発揮します。しかしカーディナリティが低い要素では境界を発見するような操作にしか威力を発揮できないので、コストが同じな割りに用途が少なく効率が悪いということだと思います。
でも”その操作をこそメインに頻繁に行う”のであれば意味はあるんじゃないかな。。

Answer

カーディナリティが高かろうが低かろうが、**外部キー制約**をかける場合にはインデックスは必須となって、選択の余地はありません。

とりわけ、今回のような業務フラグ列の場合（本当にBOOLEANなどきっちりの型で入れる場合はともかく）、異常値の混入を防ぐために外部キー制約をかけておいたほうがいいのではないかと思いました。

Answer

ガーディナリティが低い項目が単独でインデックスを作成するのは、確かに効率は良くないですが、他の項目と併せて検索の条件がインデックスに収まる事によってキーのみ検索使えて早くなる事は有ります、インデックスに入れたりして速度を計っています。

投稿2016/08/04 12:13

A.Ichi

総合スコア4070

Answer

今回のケースではインデックスは不得手なのではないかな思います。

更新を多く伴うテーブルのカラム(ステータスなので更新が多そうな気がする)にインデックスを張ると、
インデックス自体の更新も発生するため一般的には逆にパフォーマンスに悪影響が出る恐れも高いです。

takasima20さんのおっしゃる通り、
レスポンスが場合は先ずはボトルネックとなっている箇所を特定するのが重要です。

クエリに問題がありそうということでしたら、一度実行計画を見てみてはいかがでしょう？

###追記
分布に偏りがある方がインデックスの効果は高いですね。
素でボケをかましてました;

Answer

あんまり効果ないんじゃないかなあ。
もし、そういう需要があったとしてもインデックスで解決ってのはちょっと。
性能に不満があるということなら、まずは処理時間(所要時間)の分析から
はじめるのがふつうなんじゃ? 対策とるにも説得材料いりますよね。

関連した質問