🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中!

\teratail特別グッズやAmazonギフトカード最大2,000円分が当たる!/

詳細はこちら
PostgreSQL

PostgreSQLはオープンソースのオブジェクトリレーショナルデータベース管理システムです。 Oracle Databaseで使われるPL/SQLを参考に実装されたビルトイン言語で、Windows、 Mac、Linux、UNIX、MSなどいくつものプラットフォームに対応しています。

SQL

SQL(Structured Query Language)は、リレーショナルデータベース管理システム (RDBMS)のデータベース言語です。大きく分けて、データ定義言語(DDL)、データ操作言語(DML)、データ制御言語(DCL)の3つで構成されており、プログラム上でSQL文を生成して、RDBMSに命令を出し、RDBに必要なデータを格納できます。また、格納したデータを引き出すことも可能です。

配列

配列は、各データの要素(値または変数)が連続的に並べられたデータ構造です。各配列は添え字(INDEX)で識別されています。

Q&A

解決済

1回答

968閲覧

【レシピ】PostgreSQLのSELECT句:時間配列の作り方

tama_yn0815

総合スコア143

PostgreSQL

PostgreSQLはオープンソースのオブジェクトリレーショナルデータベース管理システムです。 Oracle Databaseで使われるPL/SQLを参考に実装されたビルトイン言語で、Windows、 Mac、Linux、UNIX、MSなどいくつものプラットフォームに対応しています。

SQL

SQL(Structured Query Language)は、リレーショナルデータベース管理システム (RDBMS)のデータベース言語です。大きく分けて、データ定義言語(DDL)、データ操作言語(DML)、データ制御言語(DCL)の3つで構成されており、プログラム上でSQL文を生成して、RDBMSに命令を出し、RDBに必要なデータを格納できます。また、格納したデータを引き出すことも可能です。

配列

配列は、各データの要素(値または変数)が連続的に並べられたデータ構造です。各配列は添え字(INDEX)で識別されています。

0グッド

0クリップ

投稿2019/10/11 07:05

編集2019/10/11 09:24

時間配列を作る方法を教えて欲しいです。

元の表から、特定のデータをグループ化し、複数行を一行にまとめ、
属性ごと(今回は、時間単位)に列へ入れるのが目的

グループ化するカラム:datetime(date部分), user_id, datetime(trunc_time部分), item_id
配列化したいカラム:trunc_timeの値、valueの合計、対象のCOUNT(item_idの数)

ARRAY[
ARRAY['00:00:00',SUM(value:数値),COUNT(item_id)]
,ARRAY['01:00:00',SUM(value:数値),COUNT(item_id)]
...
,ARRAY['23:00:00',SUM(value:数値),COUNT(item_id)]
]
これを作る最もEXPLAIN的にコストの低いSQLがあれば、教えて欲しいです。
※Planning time, Execution timeどちらも重視します。
と言うのも、実際は、数件ではなく、一日分で、十数万件分のレコードが格納されております。
そちらをPDFへ出力する際に、データの丸め込みを行って、数人~三十人分を一ヵ月分等で出力するため、
SQLのメインレコード的には、900件ですが、item_id毎に特定の加工を施して、LEFT OUTER JOINします。
...出来る事なら、JOINは一回(*1)で済ませたいので、各item_id毎JOIN(*2)よりもコストの低い実現が望ましいです。

*1:実行結果(EXPLAIN ANALYZE)
計画行:65行
Planning time: 2.051ms
Execution time: 89.219 ms

*2:実行結果(EXPLAIN ANALYZE)
計画行:334行
Planning time: 177.550ms
Execution time: 116.606 ms

** これが元データ **

iduser_iddatetimeitem_idvalue
11012019/08/31 22:35:511500
21012019/08/31 01:54:322500
31012019/08/31 15:57:203500
41012019/08/31 19:18:452500
51012019/09/01 10:09:581500
61012019/09/01 20:21:302500
71012019/09/01 11:02:493500
81012019/09/01 08:35:121500

** これが作りたい **

user_iddateitem_idvalues{'time','sum(value)','count(item_id)'}
1012019/08/311{{'00:00:00',400,2},{'01:00:00',NULL,0},{'02:00:00',800,5},...}
1012019/08/312{{'00:00:00',400,2},{'01:00:00',NULL,0},{'02:00:00',800,5},...}
1012019/08/313{{'00:00:00',400,2},{'01:00:00',NULL,0},{'02:00:00',800,5},...}
1012019/09/011{{'00:00:00',400,2},{'01:00:00',NULL,0},{'02:00:00',800,5},...}
1012019/09/012{{'00:00:00',400,2},{'01:00:00',NULL,0},{'02:00:00',800,5},...}
1012019/09/013{{'00:00:00',400,2},{'01:00:00',NULL,0},{'02:00:00',800,5},...}

該当のソースコード

SQL

1WITH temp_datas AS ( 2 SELECT * 3 FROM ( 4 VALUES 5 (1,101,'2019/08/31 22:35:51'::TIMESTAMP,1,500) 6 ,(2,101,'2019/08/31 01:54:32'::TIMESTAMP,2,500) 7 ,(3,101,'2019/08/31 15:57:20'::TIMESTAMP,3,500) 8 ,(4,101,'2019/08/31 19:18:45'::TIMESTAMP,2,500) 9 ,(5,101,'2019/09/01 10:09:58'::TIMESTAMP,1,500) 10 ,(6,101,'2019/09/01 20:21:30'::TIMESTAMP,2,500) 11 ,(7,101,'2019/09/01 11:02:49'::TIMESTAMP,3,500) 12 ,(8,101,'2019/09/01 08:35:12'::TIMESTAMP,1,500) 13 ) AS temp (id, user_id, datetime, item_id, value) 14) 15SELECT 16 td.user_id 17 ,td.item_id 18 ,td.date 19 -- ここを作成中 20 -- これは、あまり参考にならない。。。作りかけ箇所 21 ,ARRAY[ 22 ARRAY[ 23 '00:00:00' 24 ,SUM(CASE WHEN td.time= '00:00:00' THEN td.value END)::TEXT 25 ,COUNT(CASE WHEN td.time= '00:00:00' THEN 1 ELSE 0 END)::TEXT 26 ], 27 ARRAY[ 28 '01:00:00' 29 ,SUM(CASE WHEN td.time= '01:00:00' THEN td.value END)::TEXT 30 ,COUNT(CASE WHEN td.time= '01:00:00' THEN 1 ELSE 0 END)::TEXT 31 ], 32 -- ...続く 33 ARRAY[ 34 '23:00:00' 35 ,SUM(CASE WHEN td.time= '23:00:00' THEN td.value END)::TEXT 36 ,COUNT(CASE WHEN td.time= '23:00:00' THEN 1 ELSE 0 END)::TEXT 37 ] 38 ] AS values 39 -- ... 40FROM ( 41 SELECT 42 * 43 ,temp_datas.datetime::DATE AS date 44 ,TO_CHAR(DATE_TRUNC('hour', temp_datas.datetime::TIMESTAMP), 'HH24:MI:SS') AS time 45 FROM 46 temp_datas 47 ) AS td 48GROUP BY 49 td.user_id 50 ,td.item_id 51 ,td.date

補足情報(FW/ツールのバージョンなど)

PostgreSQL_version 9.5

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

m.ts10806

2019/10/11 07:17

備忘録的な使い方したいのでしたらQiitaへ。 自己解決で書きたいのでしたら、全て整理して一気に解決まで書いてください。投稿前に幾らでも整理できるはずです。
sazi

2019/10/11 08:58 編集

配列は24時間分固定にしたいのでしょうか? 時間の書式を入れているところを見ると可変ですか? それだと配列内を検索しない駄目なので、やっぱり固定? 固定だとすると配列の添え字で時間帯が決まるので、key部分は無駄なのでは? 配列に何を格納したいのか文章での説明が無いと分かりませんよ。 結果データがあっているならまだしも。
tama_yn0815

2019/10/11 09:13 編集

配列は、24時間で固定したいです(データ無い場合は、データが無い状態の配列を明確に入れる) 各行は必ず、00時~23時までの配列を作って、valuesカラムに持たせる認識です! 時間の書式を明示的に入れているのは、出力時点で最初にデータの値がある時刻を出力するため、参照するだけで、値(時刻)を取れるようにするためです。
guest

回答1

0

ベストアンサー

24時間固定部分は、generate_seriesを用いて生成します。
まあ、24個程度であれば、そんなに手間でもないですからvaluesでも良いですけど。
それを集計データと直積(cross join)して、配列に畳む際にcaseにて有効値を優先します。

SQL

1WITH temp_datas AS ( 2 SELECT * 3 FROM ( 4 VALUES 5 (1,101,'2019/08/31 22:35:51'::TIMESTAMP,1,500) 6 ,(2,102,'2019/08/31 01:54:32'::TIMESTAMP,2,500) 7 ,(3,101,'2019/08/31 15:57:20'::TIMESTAMP,3,500) 8 ,(4,101,'2019/08/31 19:18:45'::TIMESTAMP,2,500) 9 ,(5,103,'2019/09/01 10:09:58'::TIMESTAMP,1,500) 10 ,(6,102,'2019/09/01 20:21:30'::TIMESTAMP,2,500) 11 ,(7,101,'2019/09/01 11:02:49'::TIMESTAMP,3,500) 12 ,(8,103,'2019/09/01 08:35:12'::TIMESTAMP,1,500) 13 ) AS temp (id, user_id, datetime, item_id, value) 14) 15select user_id, item_id, date 16 , array_agg( 17 array[ 18 title_time 19 , case when title_time=time then sum_value end 20 , case when title_time=time then id_cnt end 21 ]::text[] 22 order by title_time 23 ) array_value 24from ( 25 SELECT user_id, item_id, datetime::date as date 26 , date_trunc('hour', datetime::time) as time 27 , SUM(value) sum_value, count(*) id_cnt 28 FROM temp_datas 29 GROUP BY user_id, item_id, date, time 30 ) step1 cross join ( 31 select '00:00:00'::time + (GENERATE_SERIES(0,23) || ' hours')::interval as title_time 32 ) title_time 33group by user_id, item_id, date

実環境があるわけではないですし、コストまで求められても困りますけどね。
速さの調整は上記SQLではstep1内が如何に早くなるかです。
(user_id, item_id, datetime, value)のインデックスがあればインデックスonlyで済むかもしれません。

それから、項目名はデータ型と被らないように命名した方が良いですね。
メンテナンス時に検索などで困りますし。

投稿2019/10/11 09:53

編集2019/10/11 15:32
sazi

総合スコア25327

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

tama_yn0815

2019/10/15 01:24

回答ありがとうございます。 Indexは張られていないので、、、将来的に早くなることを考えて張るように提案します。 SQLはcross join箇所のGENERATE_SERIES関数とvaluesのより実行計画の早い方を利用したく! 二度続けて、回答をいただきましてありがとうございます。
sazi

2019/10/15 01:40

CROSS JOIN の部分は内部的な展開なので、殆ど差はないと思われますので、可読性や保守性で決定すれば良いかと思います。 基本的に、GROUP BYを使用すると内部的な展開になるので、件数が多くなるとメモリーの割り当てのチューニングが必要になりますが、数千件程度であれば不要だと思います。 解決積みという事は実行計画的に、許容範囲だったという事でしょうか?
tama_yn0815

2019/10/15 02:49

はい!許容範囲内でした!! 合計で、以下の実行計画でした。 計画行:72行 Planning time: 2.223ms Execution time: 91.795 ms 運用ですか。。。将来的な保守改修が発生しそうではあるのですが。。。 例えば、開所時間から24時間分みたいな、開始が一日のスタートが固定0時から変則するとかですかね そんな時に対応できる、GENERATE_SERIESの方が、開始時刻をパラメータ化するだけで済むので、 今回は、GENERATE_SERIESを利用する事に致しました。 また、動く実例があれば、エンジニアに知識をつけていただく時にも助けになると思いました。
sazi

2019/10/15 03:06

工夫というか気付き次第で、驚くほど記述が簡潔になり、コストも低くなりますので頑張って下さい。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問