質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.53%

  • MySQL

    5831questions

    MySQL(マイエスキューエル)は、TCX DataKonsultAB社などが開発するRDBMS(リレーショナルデータベースの管理システム)です。世界で最も人気の高いシステムで、オープンソースで開発されています。MySQLデータベースサーバは、高速性と信頼性があり、Linux、UNIX、Windowsなどの複数のプラットフォームで動作することができます。

  • Linux

    3755questions

    Linuxは、Unixをベースにして開発されたオペレーティングシステムです。日本では「リナックス」と呼ばれています。 主にWebサーバやDNSサーバ、イントラネットなどのサーバ用OSとして利用されています。 上位500のスーパーコンピュータの90%以上はLinuxを使用しています。 携帯端末用のプラットフォームAndroidは、Linuxカーネル上に構築されています。

  • SQL

    2377questions

    SQL(Structured Query Language)は、リレーショナルデータベース管理システム (RDBMS)のデータベース言語です。大きく分けて、データ定義言語(DDL)、データ操作言語(DML)、データ制御言語(DCL)の3つで構成されており、プログラム上でSQL文を生成して、RDBMSに命令を出し、RDBに必要なデータを格納できます。また、格納したデータを引き出すことも可能です。

MySQLでGROUP BYを高速化したい

解決済

回答 4

投稿

  • 評価
  • クリップ 2
  • VIEW 5,291

kiq

score 7

MySQL(5.6)でデータの挿入バッチ作業をやってます

仮に以下のようなurlsテーブルがあったとして

url count
yahoo.co.jp 2
google.com 9
yahoo.co.jp 3

これをurlでGROUP BYしてかつcountの合計値とりたいので

select url, SUM(`count`) AS count_sum from urls group by url

でやってます。

もちろんこのぐらいの量なら問題ないのですが、すでにurlsテーブルに数百万件のデータが入っているので結構遅いです。

urlでINDEXキー?貼っても効いてくれませんでした

バッチなのでクエリの実行回数自体はそんなに多くはないのですが、なにか改善点はございますでしょうか。

よろしくお願いいたします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • masaya_ohashi

    2017/01/30 12:04

    ちなみにurlの型はなんですか?TEXTですか?VARCHARですか?

    キャンセル

  • kiq

    2017/01/30 12:06

    urlはTEXT型です

    キャンセル

  • yambejp

    2017/01/30 12:27

    たんなる単純ミスならいいのですが、上のyahooと下のyahooが別のurlとして解釈されているのは何か意味がありますか?もし本当に別のモノならそのロジックはどうしていますか?

    キャンセル

回答 4

checkベストアンサー

+6

このテーブルにカラムを追加してよいのであれば、URLのハッシュ値を生成して、ハッシュ値でGROUP BYしてみるのはどうでしょうか。
別テーブルを作ってよいのであれば、URLをユニークにした一覧テーブルを作成し、そのテーブルのIDをこのテーブルに持たせ、そのIDでGROUP BYすれば衝突もないでしょう。

 追記

基本的にTEXT型はINDEXを貼ったり条件に使ったりするのは苦手で低速なので、最大長がわかっていて、VARCHAR型にすることができるのであれば型を変えることもおすすめします。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/01/30 16:41

    使用確認してTEXT型からVARCHARに変更、urlのハッシュ値でインデックス貼るようにしました。

    まだベンチマークは取ってませんが改善点を一番早く提示してくださったのでベントアンサーとします。ありがとうございました

    キャンセル

+4

書かれている通りであれば高速化するにしてもパーティショニングするくらいしか思いつきませんが、
そもそもインデックスがうまく効いているかどうか、

EXPLAIN select url, SUM(`count`) AS count_sum from urls group by url

を使って、クエリー解析を行ってみてからになるかと思います。

追記:
マニュアルによると、

GROUP BY または DISTINCT 句内の、バイナリ文字列の場合に 512 バイトまたは非バイナリ文字列の場合に 512 文字より大きい文字列カラムの存在。(MySQL 5.6.15 より前のこの制限は、文字列の型に関係なく 512 バイトです。) 

url が varchar(512) を超えている、もしくは text 型である場合、ソートをインメモリで行わず file を介するため、遅くなります。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/01/30 12:30

    explainで見る限りUsing temporary; Using filesortなので効いてないです

    キャンセル

  • 2017/01/30 12:38

    group by するのにオンメモリの一時テーブルでは足りてないのですね。
    あるいは url の型が varchar(512) 以上でしょうか? この場合 MySQL は filesort 以外を使用できないです。

    サーバーパラメータチューニングでメモリを増やすのも手ですが、masaya_ohashi さんの書かれたように、url ではなくハッシュ値などでインデックスを圧縮してしまうのも手です。

    キャンセル

+4

おそらく、urlカラムを TEXT型で定義していることが問題です。

MySQLには、以下のような制限があるからです。

BLOB または TEXT カラムにインデックス設定する場合、インデックスのプリフィクス長を指定する必要があります。

インデックス内のカラムの場合、プリフィクスだけでなく、完全なカラム値にインデックスが設定されている必要があります。たとえば、c1 VARCHAR(20), INDEX (c1(10)) では、インデックスはルースインデックススキャンに使用できません。

実際、TEXT型のままインデックスを作成しても、それは使用されません。
http://sqlfiddle.com/#!9/001bc0/1


というわけで、以下のようにurlカラムの型を VARCHAR型に変更し、さらにインデックスを作成してやると、高速化が見込めます。

ALTER TABLE urls
  CHANGE COLUMN url url VARCHAR(255),
  ADD INDEX (url);


http://sqlfiddle.com/#!9/6decfc/3

なお、urlカラムに他の属性(例えば NOT NULL など)もある場合、ALTER TABLE 文では以下のようにそれら全ての属性を含めてやる必要があります。

ALTER TABLE urls
  CHANGE COLUMN url url VARCHAR(255) NOT NULL ...,
  ADD INDEX (url);


https://dev.mysql.com/doc/refman/5.6/ja/alter-table.html

CHANGE または MODIFY を使用する場合は、column_definition に、データ型および PRIMARY KEY や UNIQUE などのインデックス属性以外の、新しいカラムに適用されるすべての属性を含める必要があります。元の定義には存在するが、新しい定義として指定されていない属性は引き継がれません。


ちなみに、VARCHAR型に変更する際は格納できる文字数を指定してやる必要がありますが、
もし、urlカラムに格納されているデータが質問欄にご提示の通りの「ドメイン」のみなのであれば、255文字で十分です。
https://ja.wikipedia.org/wiki/%E3%83%9B%E3%82%B9%E3%83%88%E5%90%8D#.E6.9C.89.E5.8A.B9.E3.81.AA.E3.83.9B.E3.82.B9.E3.83.88.E5.90.8D.E3.81.AE.E5.88.B6.E9.99.90

すべてのラベルを結合しドメイン名を構成したとき、その最大文字数は255文字以下であると言う制限がある。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

+2

masaya_ohashiさんの回答がベストかと思いますが、
カバーリングインデックスを試してみて、変化があるのかは気になるところです。
こちらなどを参考に試してみてはいかがでしょうか。

ただ仮に速度が改善されたとしても、劇的には変わらない気はしますが・・・^^;

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.53%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • MySQL

    5831questions

    MySQL(マイエスキューエル)は、TCX DataKonsultAB社などが開発するRDBMS(リレーショナルデータベースの管理システム)です。世界で最も人気の高いシステムで、オープンソースで開発されています。MySQLデータベースサーバは、高速性と信頼性があり、Linux、UNIX、Windowsなどの複数のプラットフォームで動作することができます。

  • Linux

    3755questions

    Linuxは、Unixをベースにして開発されたオペレーティングシステムです。日本では「リナックス」と呼ばれています。 主にWebサーバやDNSサーバ、イントラネットなどのサーバ用OSとして利用されています。 上位500のスーパーコンピュータの90%以上はLinuxを使用しています。 携帯端末用のプラットフォームAndroidは、Linuxカーネル上に構築されています。

  • SQL

    2377questions

    SQL(Structured Query Language)は、リレーショナルデータベース管理システム (RDBMS)のデータベース言語です。大きく分けて、データ定義言語(DDL)、データ操作言語(DML)、データ制御言語(DCL)の3つで構成されており、プログラム上でSQL文を生成して、RDBMSに命令を出し、RDBに必要なデータを格納できます。また、格納したデータを引き出すことも可能です。