質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
MySQL

MySQL(マイエスキューエル)は、TCX DataKonsultAB社などが開発するRDBMS(リレーショナルデータベースの管理システム)です。世界で最も人気の高いシステムで、オープンソースで開発されています。MySQLデータベースサーバは、高速性と信頼性があり、Linux、UNIX、Windowsなどの複数のプラットフォームで動作することができます。

SQL

SQL(Structured Query Language)は、リレーショナルデータベース管理システム (RDBMS)のデータベース言語です。大きく分けて、データ定義言語(DDL)、データ操作言語(DML)、データ制御言語(DCL)の3つで構成されており、プログラム上でSQL文を生成して、RDBMSに命令を出し、RDBに必要なデータを格納できます。また、格納したデータを引き出すことも可能です。

Q&A

解決済

2回答

2551閲覧

urlに含まれる?, #より前の部分だけを取得・列挙したい

cnx

総合スコア19

MySQL

MySQL(マイエスキューエル)は、TCX DataKonsultAB社などが開発するRDBMS(リレーショナルデータベースの管理システム)です。世界で最も人気の高いシステムで、オープンソースで開発されています。MySQLデータベースサーバは、高速性と信頼性があり、Linux、UNIX、Windowsなどの複数のプラットフォームで動作することができます。

SQL

SQL(Structured Query Language)は、リレーショナルデータベース管理システム (RDBMS)のデータベース言語です。大きく分けて、データ定義言語(DDL)、データ操作言語(DML)、データ制御言語(DCL)の3つで構成されており、プログラム上でSQL文を生成して、RDBMSに命令を出し、RDBに必要なデータを格納できます。また、格納したデータを引き出すことも可能です。

0グッド

0クリップ

投稿2016/09/21 00:49

編集2016/09/21 01:06

MySQL上に 「url 列に好き勝手にURLが入ったテーブル master」 があります。
その他の列としてid, inserted, nameがあり、insertedとnameが同一となっているレコードも複数存在しています。例えばname=bobが複数のサイト(url)を閲覧した履歴がまとめて登録されて、登録されたレコードは同じ登録日(inserted)になるといった感じです。

ここで、inserted と nameの組み合わせ毎にグルーピングした上で、@aurl, @burl, @curl(中身は文字列で'http://%/default.html'など部分一致用条件)に類似せずtag=0を満たす最小のidを取得します。inserted と nameの組み合わせ自体は複数あるので最初のidも複数得られます。
そうして得られたurlについて?, #以降を割愛した状態で一覧を得たいと思っています。
?, #は入っていないこともありますし、両方はいっていることもあり順不同とします。(数も不定)

以下のようなSQLにて動作はするのですが、もっとエレガントで高速な方法はないでしょうか。
因みに45万レコードからの実行結果は、18.0776 seconds.です。

id(big int), url(text), name(text), inserted(UNIX_TIME=int)にはインデックスが張られています。(textについては256長を指定してインデックス作成)

```SQL
select url from master
where id in (
select min(id) from master
where
url not like @aurl
and url not like @burl
and url not like @curl
and tag = 0
group by inserted, name
)
and url not like '%#%'
and url not like '%?%'
union distinct
select id, inserted, name, left(url, instr(url, '?')-1) from master
where id in (
select min(id) from master
where
url not like @aurl
and url not like @burl
and url not like @curl
and tag = 0
group by inserted, name
)
union distinct
select id, inserted, name, left(url, instr(url, '#')-1) from master
where id in (
select min(id) from master
where
url not like @aurl
and url not like @burl
and url not like @curl
and tag = 0
group by inserted, name
)
and url like '%#%' and url not like '%?%'
;

3つの結果をUNIONしているので18秒ほど掛かっていて、UNIONせずにまとめて列挙できれば高速化できると想像しているのですが、replaceとregexpを組み合わせるような使い方が出来ないためこうしています。 left関数の辺りにたくさんif文を繋げれば出来そうな気もしますが見た目に悪くメンテナンスしづらそうです(もっと完結に書けないでしょうか)。 not likeの周りもregexpで1つにまとめようとしましたが、こちらは逆に遅くなりました(3倍ほど)。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kunai

2016/09/21 01:07

SQLだけで完結せず、外部のプログラム(PHPやPython等)を使うという選択肢はNGなのでしょうか。
cnx

2016/09/21 05:33

こちらで変更できるのがSQLだけなもので、PHPなどを使わずに出来ればと思っています。
guest

回答2

0

ベストアンサー

ここで、inserted と nameの組み合わせ毎にグルーピングした上で、@aurl, @burl, @curl(中身は文字列で'http://%/default.html'など部分一致用条件)に類似せずtag=0を満たす最小のidを取得します。

まず、目的の id を抽出してから、url を変換すれば、UNION を使う必要はないのでは?

そうして得られたurlについて?, #以降を割愛した状態で一覧を得たいと思っています。

url変換も式を工夫すればシンプルにできます。
url に 検索文字をあえて付加しておくことで、ifによる場合分けを不要にしてます。

SQL

1SELECT 2 left(url, instr(concat(left(url, instr(concat(url, '?'), '?')-1) ,'#'), '#')-1) url 3FROM master 4WHERE 5 id in ( 6 SELECT 7 min(id) 8 FROM 9 master 10 WHERE 11 url not like @aurl 12 and url not like @burl 13 and url not like @curl 14 and tag = 0 15 GROUP BY 16 inserted, name 17);

追記
CASE式を使ったほうが読みやすいかも。

SQL

1SELECT 2 CASE 3 WHEN url like '%#%' THEN left(url, instr(url, '#')-1) 4 WHEN url like '%?%' THEN left(url, instr(url, '?')-1) 5 ELSE url END url 6FROM master 7 以下略

前者と後者では若干結果が異なります。
前者は # と ? が両方含まれている場合、先の出てきたもの以降を切り捨てます。
後者は、# のほうを優先してそれ以降を切り捨てますので ? が残る場合があります。

投稿2016/09/21 04:58

編集2016/09/21 05:42
hatena19

総合スコア33715

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

cnx

2016/09/21 08:13

なるほど。いらない文字を結合して例外を回避する方法ですね。 こちらの書き方で一定の簡潔な書き方が出来て、UNIONも不要となり処理が5秒弱に短縮されました。 ありがとうございました。
guest

0

URLの#や?より前の部分を正規化して別テーブルに保存し
idとしてintで管理すれば相当効率良くなると思います

投稿2016/09/21 01:16

yambejp

総合スコア114837

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

cnx

2016/09/21 05:36

コメントありがとうございます。元のデータがスマフォアプリのログとして上がってくる構造になっています。 どんなURLが含まれているか受けるまで想定できず、受けたらそのまま挿入するという仕組みが確立しており、その部分のPHPなりを修正することが出来ません。
yambejp

2016/09/21 05:49

もちろん投入されてからでも定期処理を活用すれば正規化は可能です ただしもしテーブル構造を変えられないのであればどうしようもないですが・・・ 逆に正規化しないでifなどで場合分けをした場合 パフォーマンスは期待できません
yambejp

2016/09/21 05:53

もしくはトリガーを利用して、データ投入時に、もとテーブルの主キーと URLの組み合わせを外部テーブルに自動的に記録していく手もあります。 (トリガーの使用が許されていればですが)
cnx

2016/09/21 07:52

なるほど。トリガーを使うことは出来そうですね。phpMyAdminレベルの使用は可能なので恐らく出来ると思います。事前処理を行うことで集計時間の負荷を分散するということは常に考えた方が良いですね。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問