編集履歴

回答編集履歴

誤った内容の修正

2016/08/05 09:28

投稿

スコア2068

answer CHANGED Viewed

@@ -12,11 +12,13 @@
 しかしこのような場合は、まず販売済みの古いデータを定期的にバックアップに移して省くことを検討したほうが良いかもしれません。あまりにレコードが多いとデータ登録時のindex作成も負担になってくるためです。(データ件数が膨大ということは登録や更新も頻繁に行われるということですし）
 **追記**
+ところで上記のような例でpriceにもindexがあり、全体に対する「price > 1000」が「st = 2」よりも少ないと簡単に予測できる場合、オプティマイザは「price > 1000」を先に実行するプランを選択するかも知れません。そうすると「st = 2」のために極少数のレコードのソートで済みstへのindexにあるなしに関わらず実行速度が殆ど変わらなかった。ということもあるかも知れません。
+---
+**以下の部分はコメントで指摘いただいた通り誤りで、極端に分布が偏った方を参照するのでない限りindexに意味は無いようです。**
 > カーディナリティが低くても、対象テーブルのレコードの分布に偏りがある場合は
 仮に偏りが無くても、また100:100万に対して100万の方を選択する絞込みだったとしても、ソートが必要になる時点でindexには意味が出てくるように思います。
 そして絞込みや検索には大抵ソートが必要です。(たぶん)
 カーディナリティが高い例えばユニークidのような要素だと、indexはその要素を条件にした結合などの操作にも威力を発揮します。しかしカーディナリティが低い要素では境界を発見するような操作にしか威力を発揮できないので、コストが同じな割りに用途が少なく効率が悪いということだと思います。
 でも”その操作をこそメインに頻繁に行う”のであれば意味はあるんじゃないかな。。
-ところで上記のような例でpriceにもindexがあり、全体に対する「price > 1000」が「st = 2」よりも少ないと簡単に予測できる場合、オプティマイザは「price > 1000」を先に実行するプランを選択するかも知れません。そうすると「st = 2」のために極少数のレコードのソートで済みstへのindexにあるなしに関わらず実行速度が殆ど変わらなかった。ということもあるかも知れません。

修正

2016/08/05 09:28

投稿

hirohiro

スコア2068

answer CHANGED Viewed

@@ -19,4 +19,4 @@
 カーディナリティが高い例えばユニークidのような要素だと、indexはその要素を条件にした結合などの操作にも威力を発揮します。しかしカーディナリティが低い要素では境界を発見するような操作にしか威力を発揮できないので、コストが同じな割りに用途が少なく効率が悪いということだと思います。
 でも”その操作をこそメインに頻繁に行う”のであれば意味はあるんじゃないかな。。
-indexはその要素専用のソート済みテーブルを作成して同時に更新している状態で、追加や更新の都度ソートされます。だから検索よりも更新のほうが頻繁に発生するテーブルや、殆ど検索に利用されない要素に作成すると返ってシステムを遅くします。
+ところで上記のような例でpriceにもindexがあり、全体に対する「price > 1000」が「st = 2」よりも少ないと簡単に予測できる場合、オプティマイザは「price > 1000」を先に実行するプランを選択するかも知れません。そうすると「st = 2」のために極少数のレコードのソートで済みstへのindexにあるなしに関わらず実行速度が殆ど変わらなかった。ということもあるかも知れません。

追記

2016/08/04 14:36

投稿

hirohiro

スコア2068

answer CHANGED Viewed

@@ -9,4 +9,14 @@
 「未販売」と「販売済み」を選り分ける作業がindexによってほぼ無くなる程度まで軽減されるので、この作業のコストが高ければ高いほど(つまりレコード件数が多いほど)効果があります。
 そして(上記の設定のように)その選り分ける作業こそがそのSQLのコストの大半だったなら、高速化率も高くなります。
-しかしこのような場合は、まず販売済みの古いデータを定期的にバックアップに移して省くことを検討したほうが良いかもしれません。あまりにレコードが多いとデータ登録時のindex作成も負担になってくるためです。(データ件数が膨大ということは登録や更新も頻繁に行われるということですし）
+しかしこのような場合は、まず販売済みの古いデータを定期的にバックアップに移して省くことを検討したほうが良いかもしれません。あまりにレコードが多いとデータ登録時のindex作成も負担になってくるためです。(データ件数が膨大ということは登録や更新も頻繁に行われるということですし）
+**追記**
+> カーディナリティが低くても、対象テーブルのレコードの分布に偏りがある場合は
+仮に偏りが無くても、また100:100万に対して100万の方を選択する絞込みだったとしても、ソートが必要になる時点でindexには意味が出てくるように思います。
+そして絞込みや検索には大抵ソートが必要です。(たぶん)
+カーディナリティが高い例えばユニークidのような要素だと、indexはその要素を条件にした結合などの操作にも威力を発揮します。しかしカーディナリティが低い要素では境界を発見するような操作にしか威力を発揮できないので、コストが同じな割りに用途が少なく効率が悪いということだと思います。
+でも”その操作をこそメインに頻繁に行う”のであれば意味はあるんじゃないかな。。
+indexはその要素専用のソート済みテーブルを作成して同時に更新している状態で、追加や更新の都度ソートされます。だから検索よりも更新のほうが頻繁に発生するテーブルや、殆ど検索に利用されない要素に作成すると返ってシステムを遅くします。

サンプル修正

2016/08/04 14:02

投稿

hirohiro

スコア2068

answer CHANGED Viewed

@@ -2,15 +2,11 @@
 ```sql
 SELECT *
 FROM item
-INNER JOIN (
- SELECT *
- FROM item_st
- WHERE f = 2
-) st ON item.id = st.id
+WHERE st = 2 /* 未販売 */
-WHERE item.price > 1000
+AND price > 1000
 ```
-このようなSQL発行が多く、未販売が100件程度で販売済みが数百万件のような場合、item_stのf（未販売or販売済み）にindexがあればSQLの実行自体は高速化されるでしょう。
+このようなSQL発行が多く、未販売が100件程度で販売済みが数百万件のような場合、st（未販売or販売済み）にindexがあればSQLの実行自体は高速化されるでしょう。
 「未販売」と「販売済み」を選り分ける作業がindexによってほぼ無くなる程度まで軽減されるので、この作業のコストが高ければ高いほど(つまりレコード件数が多いほど)効果があります。
-そして(上記の設定のように)その選り分ける作業こそがSQLのコストの大半だったなら、高速化率も高くなります。
+そして(上記の設定のように)その選り分ける作業こそがそのSQLのコストの大半だったなら、高速化率も高くなります。
 しかしこのような場合は、まず販売済みの古いデータを定期的にバックアップに移して省くことを検討したほうが良いかもしれません。あまりにレコードが多いとデータ登録時のindex作成も負担になってくるためです。(データ件数が膨大ということは登録や更新も頻繁に行われるということですし）

コード修正

2016/08/04 13:30

投稿

hirohiro

スコア2068

answer CHANGED Viewed

@@ -5,11 +5,11 @@
 INNER JOIN (
  SELECT *
  FROM item_st
- WHERE f = '未販売'
+ WHERE f = 2
 ) st ON item.id = st.id
 WHERE item.price > 1000
 ```
-このようなSQL発行が多く、未販売が100件程度で販売済みが数百万件のような場合、item.stにindexがあればSQLの実行自体は高速化されるでしょう。
+このようなSQL発行が多く、未販売が100件程度で販売済みが数百万件のような場合、item_stのf（未販売or販売済み）にindexがあればSQLの実行自体は高速化されるでしょう。
 「未販売」と「販売済み」を選り分ける作業がindexによってほぼ無くなる程度まで軽減されるので、この作業のコストが高ければ高いほど(つまりレコード件数が多いほど)効果があります。
 そして(上記の設定のように)その選り分ける作業こそがSQLのコストの大半だったなら、高速化率も高くなります。