MYSQL&PHPにて、類似するタグ付けがなされているものを見つけたい

レコメンドエンジンほどまで行かず、単にとある項目と、それに対するタグが複数あるだけのイメージのものがあり、どういったDB設計にしようか、またどのように参照したら良いのかで躓いています。

取り急ぎ合計２カラムだけのデータが大量にあるようなテーブルにしようかと思うのですが、

項目１タグ１,タグ２,タグ３,タグ４,タグ５,タグ６,タグ７
項目２タグ４,タグ８,タグ９,タグ１０,タグ１１,タグ１２
項目３タグ１,タグ２,タグ３

この場合項目１に一番近いものとして項目３が引っ張ってこれるようにしたいのですが、どのようなコードにしたら良いのでしょうか。

行動規範の内容に同意します

回答5件

要件にもよりますが、自分なら正規化してタグテーブルと関連テーブルに分けますかね。

タグテーブル（id, name)
関連テーブル（項目id, タグid)

そのうえで関連性を見つけるときは、項目idが1のタグと同じタグが多い項目idを探す感じでしょうか
以下イメージですが...

SQL
1select 項目id, count(*) from 関連テーブル
2where タグid in (select タグid from 関連テーブル where 項目id = 1) 
3group by 項目id
4order by count(*) desc
5limit 5;

※ただし、データ量が多いなら、もう少し工夫しないと遅そうですが...

投稿2016/10/03 21:38

popobot

総合スコア6586

cutter

2016/10/04 04:33

ありがとう御座います。一般的なサーバーで、レコードが百万件以上ですと、なかなか難しそうでしょうか。

popobot

2016/10/04 05:13 編集

関係テーブルが100万ですか？　項目テーブルが100万ですか？関係テーブルが100万ぐらいならそんなにでもないかもしれません。レコードのサイズも小さいのでデータ量もそんなには行かないですし。ただフルスキャンなので、他の処理との兼ね合いもあるので、全然平気というレベルではないかと。必要があれば検証してみてください。このデータを頻繁に使うのであれば、週次バッチで作っておくのもありかもしれませんね。頻繁に変わるものでもなので、リアルタイム性はそんなに必要ないのならですが。

cutter

2016/10/05 05:17

週次バッチ・・・なるほど、ありがとう御座います！

cutter

2016/10/05 05:19 編集

ちなみに何故テーブルを分けるのでしょうか。１レコードに１タグの方が扱いやすいからでしょうか。

popobot

2016/10/05 07:09

そうですね。検索や集計しやすいからですね。以下にタグ2が含まれるかどうかは"タグ2,"でlike検索すればわかりますが、明らかにidで検索したほうが早いですね。タグ１,タグ２,タグ３,タグ４,タグ５,タグ６,タグ７

行動規範の内容に同意します

すごく単純な方法だと、比較する２つの同じ長さの配列のドット積をだすことかな。
返り値が大きければ大きいほど共通項が多いので似ている。

<?php

// 項目１ タグ１,タグ２,タグ３,タグ４,タグ５,タグ６,タグ７
$item1 = [1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0];
// 項目２ タグ４,タグ８,タグ９,タグ１０,タグ１１,タグ１２
$item2 = [0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 1, 1];
// 項目３ タグ１,タグ２,タグ３
$item3 = [1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0];


echo array_sum(array_map(function($a,$b) { return $a * $b; }, $item1, $item2));
echo array_sum(array_map(function($a,$b) { return $a * $b; }, $item1, $item3));

投稿2016/10/03 19:39

編集2016/10/03 19:40

退会済みユーザー

総合スコア0

退会済みユーザー

2016/10/03 19:53

もし自分がやるならPythonとnumpyを使用してバッチで類似度を算出、DBに保存しますかね。性能的にも精度的にも高いので。

cutter

2016/10/04 05:21

ありがとう御座います。そこまで高い精度でなくても良いのですが、教えて頂いたスクリプトでも制度はそこそこ大丈夫そうでしょうか。また、レコードが１００万件などですとやはり重くなってきますでしょうか。。

退会済みユーザー

2016/10/04 08:06

100万件をこのphpコードでやるのは速度的な問題でかなりつらいです。重いどころか終わらないかも。

行動規範の内容に同意します

基本方針は icchii様と同様（「正規化してタグテーブルと関連テーブルに分け」る）ですが、
関連性の計算にはJaccard係数を使用するのが良いでしょう。

例えば以下のように"関連テーブル"を定義した場合、

sql
1CREATE TABLE relations (
2  item_id int,
3  tag_id int,
4
5  PRIMARY KEY (item_id, tag_id),
6  UNIQUE INDEX (tag_id, item_id)
7);

項目1 に対する他の項目の Jaccard係数は以下のSQLで算出できます。

sql
1SELECT 
2  item_id,
3  dist_count,
4  matched_count,
5  (matched_count / (dist_count + 7 - matched_count)) jaccard_index # "7" は項目1 のタグ数
6FROM (
7  SELECT 
8    dist.item_id, 
9    COUNT(*) dist_count, 
10    COUNT(org.item_id) matched_count
11  FROM relations AS dist 
12  LEFT OUTER JOIN relations AS org 
13    ON dist.tag_id = org.tag_id AND org.item_id = 1
14  WHERE dist.item_id <> 1 
15  GROUP BY dist.item_id
16) AS tmp 
17ORDER BY jaccard_index DESC;

http://sqlfiddle.com/#!9/7ddec0/9

しかし、この方法ではデータ量が多くなると性能面で問題が生じる可能性があります。

実際、上のSQLの実行計画を見てみると、tmp一時テーブルに対する ORDER BY 句のところで filesort が発生しています。
http://sqlfiddle.com/#!9/7ddec0/10

「レコードが百万件以上」で問題になるか否かは性能要件とサーバ・ネットワーク等の性能しだいなので何とも言えませんが、
性能を改善したい場合は、 icchii様のコメントにあるように「バッチ処理で Jaccard係数を保存しておく」などの対策が必要になります。
※ 当然ですが、その場合はリアルタイムのデータではなくなります。

投稿2016/10/04 05:54