### 前提漫画のDBがあるとします。カラムはidとgenresです。 |id|genres| |:--|:--:| ### 実現したいことある漫画のジャンルと、各idにあるジャンルとの積集合の数を求めたいです。 ### 例ある漫画のジャンル（仮にid = 10) = ファンタジー,コメディー,アクション **漫画DB** |id|genres |:--|:--:| |1|アドベンチャー,ファンタジー| |2|スポーツ,ドラマ| |3|ファンタジー,コメディー| |...|...| |10|ファンタジー,コメディー,アクション| id = 1 と id = 10 の積集合の数は1 id = 2 と id = 10 の積集合の数は0 id = 3 と id = 10 の積集合の数は2 **理想のDB** |id|積集合数| |:--|:--:| |1|1| |2|0| |3|2| ### 試したこと id = 10 のジャンルを行列に変換して、各idのジャンルも行列に変換してintersectをやってもうまくいきません。 ```sql SELECT id, count(genre) FROM manga, ( SELECT unnest(string_to_array(genres, ',')) AS genre FROM manga INTERSECT SELECT unnest(string_to_array(genres, ',')) AS genre FROM manga WHERE id = 10 ) AS seki GROUP BY id ; ``` ### バージョン PostgreSQL 13.1

やりかたはいろいろあると思いますが、たとえば以下のようなクエリで実現できるかと思います。 ```SQL SELECT A.id, SUM(CASE WHEN A.genre = B.genre THEN 1 ELSE 0 END) FROM ( SELECT id, unnest(string_to_array(genres, ',')) AS genre FROM manga ) A CROSS JOIN ( SELECT unnest(string_to_array(genres, ',')) AS genre FROM manga WHERE id = 10 ) B GROUP BY A.id ```

PostgreSQL 積集合の数を抽出する

前提

漫画のDBがあるとします。カラムはidとgenresです。

id	genres

実現したいこと

ある漫画のジャンルと、各idにあるジャンルとの積集合の数を求めたいです。

例

ある漫画のジャンル（仮にid = 10) = ファンタジー,コメディー,アクション

漫画DB

id	genres
1	アドベンチャー,ファンタジー
2	スポーツ,ドラマ
3	ファンタジー,コメディー
...	...
10	ファンタジー,コメディー,アクション

id = 1 と id = 10 の積集合の数は1
id = 2 と id = 10 の積集合の数は0
id = 3 と id = 10 の積集合の数は2

理想のDB

id	積集合数
1	1
2	0
3	2

試したこと

id = 10 のジャンルを行列に変換して、各idのジャンルも行列に変換してintersectをやってもうまくいきません。

sql
1SELECT id, count(genre)
2FROM manga, (
3    SELECT unnest(string_to_array(genres, ',')) AS genre
4    FROM manga
5    INTERSECT
6    SELECT unnest(string_to_array(genres, ',')) AS genre
7    FROM manga
8    WHERE id = 10
9) AS seki
10GROUP BY id
11;

バージョン

PostgreSQL 13.1

退会済みユーザー

2022/05/26 01:35

genres をカンマ区切りで持たず、1つの単語で持つ構造にすることはできないのでしょうか。id, manga_id, genre というテーブル構造なら、容易に求められそうです。

退会済みユーザー

2022/05/26 01:56

できれば CREATE TABLE文とCOPY文などでサンプルテーブルを作りやすく提供してもらえると良いのだけど。

shima7

2022/05/26 03:46

https://www.kaggle.com/code/ayushv322/anime/data ここのanime.csvのデータを使っています。例の漫画DBの id は mal_id で genresはそのままgenresです。ジャンルは複数にしたいです！

行動規範の内容に同意します

回答1件

ベストアンサー

やりかたはいろいろあると思いますが、たとえば以下のようなクエリで実現できるかと思います。

SQL
1SELECT A.id, SUM(CASE WHEN A.genre = B.genre THEN 1 ELSE 0 END)
2FROM (
3  SELECT id, unnest(string_to_array(genres, ',')) AS genre
4  FROM manga
5) A
6CROSS JOIN (
7  SELECT unnest(string_to_array(genres, ',')) AS genre
8  FROM manga
9  WHERE id = 10
10) B
11GROUP BY A.id

投稿2022/05/26 04:38

neko_the_shadow

総合スコア2441

shima7

2022/05/26 12:46

ありがとうございます、求めていた理想のクエリになりました！

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.29%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する