SQL 特定条件によるデータ抽出および集計

###前提・実現したいこと
使用DB PostgreSQL9.1.23

以下のテーブルについてSQLによるデータ抽出を行おうとしています。

■条件

テーブルの設計は変更できません
ctimeはtext型ですが、日時データが格納されていますフォーマット：yyyy-mm-dd hh24:mi:ss.MS
group_nameとuser_nameの組み合わせごとにctimeが最新のレコードを抽出します
ctimeが最新のレコードが複数ある場合、gidが大きいレコードを対象とします
抽出したレコードをgroup_nameごとに集計し、各group_nameのdata1の合計値を結果として求めます

■データサンプル
|gid|group_name|user_name|ctime|data1|
|:--|:--|:--|:--|
|1|aaa|xxx|2017-06-24 12:00:00.001|3|
|2|aaa|xxx|2017-06-24 12:00:00.002|4|
|3|aaa|xxx|2017-06-24 12:00:00.002|1|
|4|aaa|yyy|2017-06-24 12:00:00.002|3|
|5|bbb|xxx|2017-06-24 12:00:00.001|3|
|6||xxx|2017-06-24 12:00:00.001|3|

###実装したSQL

SQL
1SELECT
2      group_name
3    , sum(data1) 
4  FROM
5    sample_tbl 
6    INNER JOIN ( 
7      SELECT
8            max(sample_tbl.gid) AS gid 
9        FROM
10          sample_tbl 
11          INNER JOIN ( 
12            SELECT
13                  group_name
14                , user_name
15                , max(to_timestamp(ctime, 'yyyy-mm-dd hh24:mi:ss.MS')) AS ctime 
16              FROM
17                sample_tbl 
18              GROUP BY
19                group_name
20                , user_name
21          ) AS latest_id_tbl 
22            ON to_timestamp(sample_tbl.ctime, 'yyyy-mm-dd hh24:mi:ss.MS') = latest_id_tbl.ctime 
23            AND sample_tbl.group_name = latest_id_tbl.group_name 
24            AND sample_tbl.user_name = latest_id_tbl.user_name 
25        GROUP BY
26          sample_tbl.group_name
27          , sample_tbl.user_name
28    ) AS gid_tbl 
29      ON sample_tbl.gid = gid_tbl.gid 
30  GROUP BY
31    sample_tbl.group_name

###アドバイスいただきたいこと
SQL初学者であるため、正しく抽出できているのか、組立てに問題がないか自信がありません。
サブクエリがネストしており、パフォーマンスに不安があります。
修正すべき箇所、より優れた書き方等ありましたら、ご指摘をお願いいたします。

###追記1
アドバイスいただき、window関数のrankを使用して、以下の通り書き換えてみました。
誤りや改善の余地がありましたら、ご指摘いただけると幸いです。

SQL
1SELECT
2      group_name
3    , sum(data1)
4  FROM
5    ( 
6      SELECT
7            *
8          , rank() OVER ( 
9            PARTITION BY
10                group_name
11                , user_name 
12              ORDER BY
13                to_timestamp(ctime, 'yyyy-mm-dd hh24:mi:ss.MS') DESC
14                , gid DESC
15          ) 
16        FROM
17          sample_tbl
18    ) AS rank_tbl 
19  WHERE
20    rank = 1 
21  GROUP BY
22    group_name

shoko1

2017/06/28 02:35

SQL・DBの質問はDBの種類、バージョンを明記すると正しい回答が得られやすいと思います。

monagano

2017/06/28 02:41

ご指摘ありがとうございます。追記いたしました。

行動規範の内容に同意します

回答4件

ctimeはtext型ですが、日時データが格納されていますフォーマット：yyyy-mm-dd hh24:mi:ss.MS

textですがフォーマットが統一しているので文字列にてmax

sql
1select t0.group_name, sum(t0.data1) from sample_tbl t0
2join
3(select t1.group_name,t1.user_name,t1.ctime,max(gid) gid from sample_tbl t1
4    join (
5        select group_name,user_name,max(ctime) ctime from sample_tbl
6        group by group_name,user_name
7        ) t2
8    using (group_name,user_name,ctime)
9    group by t1.group_name,t1.user_name,t1.ctime
10) t3
11using (gid,group_name,user_name,ctime)
12group by t0.group_name
13;

投稿2017/06/28 04:25

A.Ichi

総合スコア4070

monagano

2017/06/28 04:30

回答いただき、ありがとうございます。 USING による略記法の存在を初めて知りました。活用させていただきます。

A.Ichi

2017/06/28 04:32

基本ONと同じでJOINでテーブル双方の名前が一緒の場合に使えます。

行動規範の内容に同意します

SQL的には問題ありません。
このくらいのネストと条件なら一般的なPGは難なく読めるかと思います。

ただ一番ネストしたSQLがテーブル全件を対象としていますし、
同じテーブルを3回joinしているので
件数が増えると著しくパフォーマンスは落ちる可能性があります。

他に条件がありませんか？
ctimeが任意の期間だったり、他のカラムで条件があったり、、、
過去n日以前のデータは削除しているとか、、、
でないと、パフォーマンスは改善しないかと思われます。

あとはto_timestampしなくても最大値は取れそうな気がします。
件数が多くなった場合に関数の有り無しはパフォーマンスに影響します。

投稿2017/06/28 03:18

szk.

総合スコア1400

monagano

2017/06/28 03:24

回答いただき、ありがとうございます。やはり、パフォーマンスには難があるのですね。 >>あとはto_timestampしなくても最大値は取れそうな気がします。フォーマットがyyyy-mm-dd hh24:mi:ss.MSであれば、桁数が保障されている限り、文字列として大小比較しても問題ないという認識で良いのでしょうか。

szk.

2017/06/28 03:56

件数とレスポンスはどのくらいを想定されていますか？数万件くらいなら問題ないはずですが、数十万単位になってくると改善が必要かと思われます。フォーマットはおっしゃる通り、桁数固定で数字が上がっていくだけなら、文字列比較でも問題ないはずです。

monagano

2017/06/28 04:21

データ件数は最大100万件、レスポンス1秒程度が目安と考えております。 to_timestampへの変換はコストが高そうなので、無変換での比較を検討してみようと思います。ありがとうございました。

行動規範の内容に同意します

ベストアンサー

window関数のrank()を利用すれば、スマートに実現出来ると思います。

試してみてください。

投稿2017/06/28 02:43

koizumi

総合スコア230

monagano

2017/06/28 03:21

回答いただき、ありがとうございます。以下の通り、rank関数に書き換えてみました。使い方に問題や改善の余地がありましたら、ご指摘いただけますでしょうか。 SELECT group_name , sum(data1) FROM ( SELECT * , rank() OVER ( PARTITION BY group_name , user_name ORDER BY to_timestamp(ctime, 'yyyy-mm-dd hh24:mi:ss.MS') DESC , gid DESC ) FROM sample_tbl ) AS rank_tbl WHERE rank = 1 GROUP BY group_name

koizumi

2017/06/28 04:51 編集

PARTITION の指定も間違っていないようですし、ORDER もちゃんと指定できているようなので、問題無いと思われます。私の環境で試していないので、なんともですが、monaganoさんが、検索結果やパフォーマンスに納得出来れば、最善な方法だと思います。

monagano

2017/06/28 04:23

rankのおかげですっきりと実装できました。パフォーマンスについても問題なさそうです。ありがとうございました。

行動規範の内容に同意します

抽出条件としてはこうなるので

SQL
1select *
2from sample_tbl as t1
3having (select count(*)+1 from sample_tbl as t2 where 1
4and t1.group_name=t2.group_name
5and t1.user_name=t2.user_name
6and (
7t1.ctime<t2.ctime or
8t1.ctime=t2.ctime and t1.gid<t2.gid
9)
10)=1
11

これをサブクエリにして集計するとこう

SQL
1select group_name,sum(data1) as data1
2from (
3select group_name,data1
4from sample_tbl as t1
5having (select count(*)+1 from sample_tbl as t2 where 1
6and t1.group_name=t2.group_name
7and t1.user_name=t2.user_name
8and (
9t1.ctime<t2.ctime or
10t1.ctime=t2.ctime and t1.gid<t2.gid
11)
12)=1
13) as sub
14group by group_name