SQL での重複項目検索

Question

### 前提・実現したいこと

SQLでの名前のあいまい検索で重複を探したいです。


### バージョン
mysql
5.7.22

### 該当のソースコード

```ここに言語名を入力

-- auto-generated definition
create table table_name
(
  id  int          null,
  sei varchar(100) null,
  mei varchar(100) null
)
charset = utf8mb4;


insert table_name (id, sei, mei) VALUE (1, '田中', '二郎');
insert table_name (id, sei, mei) VALUE (2, '田中', '二郎2');
insert table_name (id, sei, mei) VALUE (3, '田中', '二郎3');
insert table_name (id, sei, mei) VALUE (4, '田中', '二郎4');
insert table_name (id, sei, mei) VALUE (5, '高橋', '太郎');
insert table_name (id, sei, mei) VALUE (6, '高橋', '太郎2');
insert table_name (id, sei, mei) VALUE (7, '高橋', '太郎3');
insert table_name (id, sei, mei) VALUE (8, '高橋', '太郎4');
insert table_name (id, sei, mei) VALUE (9, '斎藤2', '一郎9');
insert table_name (id, sei, mei) VALUE (10, '斎藤2', '一郎');
insert table_name (id, sei, mei) VALUE (11, '斎藤2', '一郎2');
insert table_name (id, sei, mei) VALUE (12, '斎藤2', '一郎3');
insert table_name (id, sei, mei) VALUE (13, '佐藤2', '四郎');
insert table_name (id, sei, mei) VALUE (14, '佐藤2', '四郎2');
insert table_name (id, sei, mei) VALUE (15, '佐藤2', '四郎3');
insert table_name (id, sei, mei) VALUE (16, '佐藤2', '四郎4');
insert table_name (id, sei, mei) VALUE (17, '佐藤2', '四郎5');
insert table_name (id, sei, mei) VALUE (18, '佐藤2', '四郎6');




SELECT
  CONCAT(sei, mei) as fullname
FROM table_name
GROUP BY fullname
HAVING COUNT(*) > 1;
```

### 試したこと

```
SELECT
  CONCAT(sei, mei) as fullname,
  count(fullname) as count
FROM table_name
GROUP BY fullname
HAVING COUNT(*) > 1;
```

### 期待値

|id|fullname|count|
|:--|:--:|--:|
|1|田中二郎|4|
|10|高橋2太郎|4|
|1|斎藤2一郎|4|
|10|佐藤2四郎|5|

・条件
```
sei : が完全一致
mei : 前方一致
```

上記の名前`名前苗字`が18レコードあることを確認できるようにしたいです。

Answer

やりたいことは、FULLTEXTのMATCH AGAINSTな気もしますが、
テーブル仕様が違うので、今回の条件内で、行う場合。

```SQL
SELECT	T1.id
	,	T1.sei
    ,	T1.mei
    ,	(
			SELECT	COUNT( 'X' )
			FROM	table_name T3
			WHERE	T3.sei	= T1.sei
                AND	T3.mei	like concat( '%'
									,	ifnull(SUBSTR(T1.mei,1,1), '' )
                                    ,	 '%'
									,	ifnull(SUBSTR(T1.mei,2,1), '' )
                                    ,	 '%'
									,	ifnull(SUBSTR(T1.mei,3,1), '' )
                                    ,	 '%'
									,	ifnull(SUBSTR(T1.mei,4,1), '' )
                                    ,	 '%'
									,	ifnull(SUBSTR(T1.mei,5,1), '' )
                                    ,	 '%'
									,	ifnull(SUBSTR(T1.mei,6,1), '' )
                                    )
		) as cnt
FROM	table_name T1
WHERE	EXISTS(
			SELECT	'X'
			FROM	table_name T2
			WHERE	T2.id	<> T1.id
                AND	T2.sei	= T1.sei
                AND	T2.mei	like concat( '%'
									,	ifnull(SUBSTR(T1.mei,1,1), '' )
                                    ,	 '%'
									,	ifnull(SUBSTR(T1.mei,2,1), '' )
                                    ,	 '%'
									,	ifnull(SUBSTR(T1.mei,3,1), '' )
                                    ,	 '%'
									,	ifnull(SUBSTR(T1.mei,4,1), '' )
                                    ,	 '%'
									,	ifnull(SUBSTR(T1.mei,5,1), '' )
                                    ,	 '%'
									,	ifnull(SUBSTR(T1.mei,6,1), '' )
                                    )
			)
```

実行結果
|id|sei|mei|cnt|
|:--|:--|:--|:--|
|1|田中|二郎|4|
|5|高橋|太郎|4|
|10|斎藤2|一郎|4|
|13|佐藤2|四郎|6|

ちなみに、高橋2なんて結果は出ませんし、佐藤2四朗も6ですよね？
机上の期待値はよく確認してくださいね。

Answer

まず「名前苗字：9」「名前2苗字：9」にはならない。8:10です
またグループ処理をしたらどのidをひろうか指定しないとだめ
一番小さいのでよいのでしょうか？

```SQL
select min(id) as id,concat(sei,'苗字') as fullname,count(*) as cnt from table_name
where mei like '苗字%'
group by fullname 
order by id
```

# sample
- 元データ
```SQL
create table tbl(
  id  int primary key,
  sei varchar(100) null,
  mei varchar(100) null
);
insert into tbl (id, sei, mei) VALUE
(1, '田中', '二郎'),
(2, '田中', '二郎2'),
(3, '田中', '二郎3'),
(4, '田中', '二郎4'),
(5, '高橋', '太郎'),
(6, '高橋', '太郎2'),
(7, '高橋', '太郎3'),
(8, '高橋', '太郎4'),
(9, '斎藤2', '一郎9'),
(10, '斎藤2', '一郎'),
(11, '斎藤2', '一郎2'),
(12, '斎藤2', '一郎3'),
(13, '斎藤2', '一'),
(14, '斎藤2', '一二三'),
(15, '斎藤2', '二郎');
```
- 抽出
```
select min(id) as id,concat(sei,substr(mei,1,1)) as fullname,count(*) as cnt from tbl
group by fullname 
order by id
```

id	fullname	count
1	田中二郎	4
10	高橋2太郎	4
1	斎藤2一郎	4
10	佐藤2四郎	5

id	sei	mei	cnt
1	田中	二郎	4
5	高橋	太郎	4
10	斎藤2	一郎	4
13	佐藤2	四郎	6

前提・実現したいこと

バージョン

該当のソースコード

試したこと

期待値

sample

関連した質問