MySQLで「タグ同士の関連性」をデータベースに持たせる方法

Question

### 前提
phpとMySQLでユーザーがタグを付けてコメントを投稿するシステムを作りました。

今回は **「指定タグの関連タグを取得する目的」** で、「タグ同士の関連性」テーブルを作ろうとしています。

### 実現したいこと
「タグ同士の関連性」テーブルにおいて、適切なプランを知りたいです。

### 発生している問題
下記プランＡ、Ｂを考えていますが、経験が浅くどちらを採用すべきか判断ができません。
どういうケースでどういうメリット・デメリットがあるのか、アドバイスを頂きたく思っております。

### 「コメントとタグ」テーブル（決定）
まず「コメントとタグ」は３つのテーブルが担い、次のstepでそれぞれへINSERTされます。

step1. ユーザーがコメントにタグをつけてPOSTする。
step2. コメントが `tbl_comments` へINSERTされる。
step3. タグは `tbl_tags` へINSERTされる。
step4. タグとコメントの紐付けは `tbl_tag_holders` へINSERTされる。

```SQL
-- コメント
CREATE TABLE tbl_comments (
  `ID` int AUTO_INCREMENT, 
  `comment` varchar(100) not null, 
  PRIMARY KEY(`ID`),
  INDEX idx_comments_01 (`comment`));

INSERT INTO tbl_comments (`ID`,`comment`)
VALUES
(1,  'こんにちは'),
(2,  'ありがとう'),
(3,  'さようなら');

-- タグ
CREATE TABLE tbl_tags (
  `ID` int AUTO_INCREMENT, 
  `tag_kind_id` int, 
  `tag_name` varchar(100),
   PRIMARY KEY(`ID`),
   UNIQUE u_tags_01 (`tag_kind_id`, `tag_name`));
  
INSERT INTO tbl_tags (`ID`, `tag_kind_id`, `tag_name`) 
VALUES -- tag_kind_id は「本、著者、ジャンル」の３種類があります。
(1,  1,  '吾輩は猫である'),
(2,  2,  '夏目漱石'),
(3,  3,  '恋'),
(4,  3,  '人生'),
(5,  1,  '人間失格'),
(6,  2,  '太宰治'),
(7,  3,  '罪');

-- リレーション
CREATE TABLE tbl_tag_holders (
  `comments_ID` int,
  `tags_ID` int,
  PRIMARY KEY  (`comments_ID`, `tags_ID`),
  INDEX idx_tag_holders_01 (`tags_ID`, `comments_ID`), 
  CONSTRAINT fk_tag_holders_01 FOREIGN KEY (`comments_ID`) REFERENCES tbl_comments(`ID`),
  CONSTRAINT fk_tag_holders_02 FOREIGN KEY (`tags_ID`) REFERENCES tbl_tags(`ID`) );
  
INSERT INTO tbl_tag_holders
(`comments_ID`, `tags_ID`)
VALUES
(1, 1),(1, 2),(1, 3),(1, 4),
(2, 5),(2, 6),(2, 7),
(3, 1),(3, 2),(3, 4);
```

そしてこれに続くstepとして

step5. タグ同士に「タグ同士の関連性」を持たせるべく、tbl_tag_relations へINSERTされる。

があるわで、ここにおいて以下プランで悩んでいる次第です。

### 蛇足
質問と直接関係ありませんが、例えば 'さようなら' のコメントを次のように検索します。
```SQL
SELECT C.ID comment_id,
       GROUP_CONCAT( T.tag_name ) tag_names
FROM tbl_comments C
     LEFT JOIN tbl_tag_holders TH ON TH.comments_ID = C.ID
     LEFT JOIN tbl_tags T ON T.ID = TH.tags_ID
WHERE C.comment = 'さようなら'
GROUP BY comment_id;
```
閑話休題。

### 「タグ同士の関連性」テーブル（プランＡ）
まず一方向に関連性を持たせ、`tag_unique`カラムでユニーク性を持たせるプランです。
```SQL
-- タグ同士の関連性
CREATE TABLE tbl_tag_relations (
  `tags_ID1` int,
  `tags_ID2` int,
  `tag_unique` varchar(100) as (concat(least(`tags_ID1`,`tags_ID2`),',',greatest(`tags_ID1`,`tags_ID2`))),
  `count_relations` int not null default 1,
  CONSTRAINT fk_tag_relations_01 FOREIGN KEY (`tags_ID1`) REFERENCES tbl_tags(`ID`),
  CONSTRAINT fk_tag_relations_02 FOREIGN KEY (`tags_ID2`) REFERENCES tbl_tags(`ID`) );
```

このプランＡですと、例えばタグを３つ持っている 'さようなら' のコメントは、次の３レコードで済みます。
```SQL
INSERT INTO tbl_tag_relations
(`tags_ID1`, `tags_ID2`)
VALUES
(1, 3),(2, 3),(3, 4);
```

### 「タグ同士の関連性」テーブル（プランＢ）
続いて双方向の関連性を持たせるプランです。
```SQL
-- タグ同士の関連性
CREATE TABLE tbl_tag_relations (
  `tags_ID1` int,
  `tags_ID2` int,
  `count_relations` int not null default 1,
  CONSTRAINT fk_tag_relations_01 FOREIGN KEY (`tags_ID1`) REFERENCES tbl_tags(`ID`),
  CONSTRAINT fk_tag_relations_02 FOREIGN KEY (`tags_ID2`) REFERENCES tbl_tags(`ID`) );
```

このプランＢですと、'さようなら' のコメントは次の６レコードが必要となります。
```SQL
INSERT INTO tbl_tag_relations
(`tags_ID1`, `tags_ID2`)
VALUES
(1, 3),(3, 1),(2, 3),(3, 2),(3, 4),(4, 3);
```

### メリット・デメリット
上記プランＡ、Ｂについて **「指定タグの関連タグを取得する目的」** を基に愚見を申しますと、

まず 'さようなら' のコメントの例で述べたように、プランＡの方が`tbl_tag_relations`のレコード数が少なくて済む点で良いのかなと思います。

他方SELECTに目を向けてみますと、例えば $target_tag_id=4 と関連するタグを取得するにあたっては、次のコードの違いがあるように思われます。

すなわち、プランＡは tags_ID1 と tags_ID2 のそれぞれにWHEREをかけないといけませんが、プランＢは tags_ID1 に対してだけで済みますので、この点ではＢが良いいのかなと思います。

```SQL
-- 指定タグの関連タグを取得する（プランＡ）
SELECT * 
FROM (
    SELECT *
    FROM   tbl_tag_relations TR
           LEFT JOIN tbl_tags T 
                  ON T.ID = TR.tags_ID1

-- tags_ID1 にWHERE
    WHERE  TR.tags_ID1 = $target_tag_id

GROUP BY TR.count_relations
    ORDER BY TR.count_relations DESC
    LIMIT 10
) UNION (
    SELECT *
    FROM   tbl_tag_relations TR
           LEFT JOIN tbl_tags T 
                  ON T.ID = TR.tags_ID2

-- tags_ID2 にWHERE
    WHERE  TR.tags_ID2 = $target_tag_id

GROUP BY TR.count_relations
    ORDER BY TR.count_relations DESC
    LIMIT 10
)
LIMIT 10
```
```SQL
-- 指定タグの関連タグを取得する（プランＢ）
SELECT *
FROM   tbl_tag_relations TR
       LEFT JOIN tbl_tags T 
	          ON T.ID = TR.tags_ID1

-- tags_ID1 に対してだけで済みます
WHERE  TR.tags_ID1 = $target_tag_id

GROUP BY TR.count_relations
ORDER BY TR.count_relations DESC
LIMIT 10
```

このようにメリット・デメリットがよく掴み切れず、どちらが良いのかイマイチ整理がつきません。

### ツールのバージョンなど
それぞれ次のバージョンです。

PHP 8.0
MySQL 5.7.2

宜しくお願い致します。

Accepted Answer

認識が違ったらすみません。2個のtag同士を限定的に関連性をもたせるならこんな感じとか

SQL
1create table tbl_tag_relations(
2relation_id int not null,
3num enum('1','2') not null,
4tag_id int,
5primary key(relation_id,num),
6unique(relation_id,tag_id));
7
8insert into tbl_tag_relations values
9(1,'1',1),(1,'2',3),(2,'1',2),(2,'2',3),(3,'1',3),(3,'2',4);

※テーブルのカラム設定とデータ投入を調整しました

テスト

以下でテストしてみて

SQL
1select * from tbl_tag_relations as t1
2inner join tbl_tag_relations as t2
3on t1.relation_id=t2.relation_id
4and t1.num<>t2.num

こうなりますか？

relation_id	num	tag_id	relation_id	num	tag_id
1	1	1	1	2	3
1	2	3	1	1	1
2	1	2	2	2	3
2	2	3	2	1	2
3	1	3	3	2	4
3	2	4	3	1	3

検索

その上で、1と関連するtag_idを検索

SQL
1select t1.tag_id from tbl_tag_relations as t1
2inner join tbl_tag_relations as t2
3on t1.relation_id=t2.relation_id
4and t1.num<>t2.num
5and t2.tag_id=1;

tag_id
3

投稿2022/08/19 00:59

編集2022/08/22 08:09

yambejp

総合スコア118427

Answer

重視するのが検索性能＞リソース量で、それぞれに検索のメリットがあるなら、2つとも作成しておき使い分けるというのもアリだと思います。

前提

実現したいこと

発生している問題

「コメントとタグ」テーブル（決定）

蛇足

「タグ同士の関連性」テーブル（プランＡ）

「タグ同士の関連性」テーブル（プランＢ）

メリット・デメリット

ツールのバージョンなど

テスト

検索

関連した質問