Mysql 5.6でGroup BY(複数カラム)を実行しても重複が残るのですが、理由がわかりません。

Question

正規化されていないテーブル(table_1)の共通項目を別テーブル(table_2)にくくりだし、それを参照するようにしようとしています。

そこで、まずtable_1のデータをgroup byし重複を取り除いて、table_2に登録しようとしたのですが、group byしたはずなのにtable_2に重複行が現れます。（実行したのは下記の手順）

1 空のtable_2に対して、group byしたtable_1のデータを登録する。

```sql
INSERT table_2(col_1, col_2, col_3, col_4, col_5, col_6, col_7, col_8, col_9, col_10)
SELECT col_1, col_2, col_3, col_4, col_5, col_6, col_7, col_8, col_9, col_10
FROM table_1
GROUP BY col_1, col_2, col_3, col_4, col_5, col_6, col_7, col_8, col_9, col_10
```

2 table_2をgroup byする 重複行が見つかる。
```sql
SELECT col_1, col_2, col_3, col_4, col_5, col_6, col_7, col_8, col_9, col_10
FROM table_2
GROUP BY col_1, col_2, col_3, col_4, col_5, col_6, col_7, col_8, col_9, col_10
```


なお、条件は

* グループ化するカラムは、integerまたはdecimal**またはVARCHAR**
* col_1, col_2以外にはNULLが入っている可能性がある。
* table_1のデータ数は, 22000件程度


このような結果になるのは何故なのでしょうか。

よろしくお願いします。

**以下追記**

カラムの数及び型に記載の誤りがありました。

* カラムは全部で10個
* 型に文字型がある(太字で修正してます。)

なお、詳細なtable等の条件は

* 各テーブルにはidとcreated_at, updated_atがある。(idはオートインクリメント)
* 各テーブルはPrimary keyはidのみ
* 各テーブルにPrimary以外のユニーク制約はない。
* col_1: int(11)
* col_2 ~ col_9: VARCHAR(255)
* col_10: DECIMAL(4,1)
* 文字コードは全カラムがCAHRSET: utf-8, COLLATE: utf8_unicode_ci
* 今回のケースでtable_2にinsertされた件数は7000件弱
のようになっています。

また、2の重複の見つけ方について、補足・修正します。

2.1 table_1にtable_2への参照を持たせるために、下記のようなsqlを実行すると重複エラーが起きる。
```sql
UPDATE table_1 t1
SET id_of_table_2 = (
  SELECT id FROM table_2 t2
  WHERE t1.col_1 = t2.col_1
    AND t1.col_2 =t2.col_2
            :
            :
   AND t1.col_10 =t2.col_10
```

2.2 重複がないことをチェックするため、下記のsqlを投げると1件もHITしない。
```sql
SELECT *
FROM table_2
GROUP BY col_1, col_2, col_3, col_4, col_5, col_6, col_7, col_8, col_9, col_10
HAVING COUNT(id) > 1
```

2.3 2.1のupdate文をwhere句で範囲指定し、重複エラーをはいている行を特定し、table_2の該当行を見つける。

すると、idの1と２が同じであるように見受けられる。

2.4 ２行あると見受けられるものに絞ってGROUP BYしてみる。1件HITする。
```sql
SELECT *
FROM table_2
WHERE id IN(1,2)
GROUP BY col_1, col_2, col_3, col_4, col_5, col_6, col_7, col_8, col_9, col_10
HAVING COUNT(id) > 1
```

2.5 何度か2.2と2.4のSQLを交互に実行してみても結果変わらず。(2.4の行をコピペしてwhere句を削って実行しているだけなので、typoはしていないと思う。)

というような手順で重複行が見つかってると判断しています。


**以下追記2(質問に対する回答で使用した方法)**

調べること

* 重複してる行(ID1とID2)の値が本当に一致しているか。

調べた際の条件

* table_2のID1とID2は目で見た感じはcol_1~col_10の値が同じ
* ID1とID2に関してはすべてのカラム(col_1~col_10)に値がある。

流したSQL
```sql
SELECT b.*
FROM table_2 a, table_2 b
WHERE a.id = ID1
        AND a.id <> b.id
	AND a.col_1 = b.col_1
                  :
                  :
	AND a.col_10 = b.col_10
```

上記のsqlを流すと、ID2のデータが返ってくる。
そのため、ID1とID2のcol_1~col_10の値は同値と判断した。

Answer

情報の追記、ありがとうございます。追記いただいた情報をもとに調査してみましたが、私も原因が分かりませんorz そのため、以下に記載する内容は具体的な回答ではない事を前置きさせていただきます。 --- まず、念のため以下を確認させていただきますが、お気を悪くなさらないで下さい(^^; > 1 空のtable_2に対して、group byしたtable_1のデータを登録する。の前は、 - "table_2"テーブルは空でしたね？実行したINSERT文は - ご質問に記載した通りのものですね？実はGROUP BY句に指定するカラムを一つ、忘れたりしていませんね？ INSERT文を実行した後、 - "table_1", "table_2"双方ともデータの更新・追加は一切行なっていませんね？ - 実はMikan様以外のメンバーがこっそり触っていたり、 - 稼働中のサービスがアクセスしていたりしませんね？ --- で、ここから本題です。疑わしいレコードを特定できているようなので、次は「疑わしいレコードのどのカラムに差分が発生しているか」を特定しましょう。原因の箇所を絞り込めば、それだけ調査は前進できると思いますので。カラムを特定する方法ですが、 > 以下追記2(質問に対する回答で使用した方法) で実施されたSQL文の ```sql AND a.col_[n] = b.col_[n] ``` 部分を1行ずつ、以下のように変更しながら繰り返し実施してみて下さい。 ```sql AND a.col_[n] = BINAARY b.col_[n] ``` 以下のような要領です。 1回目 : `col_1`のみ ```sql SELECT b.* FROM table_2 a, table_2 b WHERE a.id = ID1 AND a.id <> b.id AND a.col_1 = BINARY b.col_1 AND a.col_2 = b.col_2 : AND a.col_10 = b.col_10 ``` 2回目 : `col_1`と`col_2` ```sql SELECT b.* FROM table_2 a, table_2 b WHERE a.id = ID1 AND a.id <> b.id AND a.col_1 = BINARY b.col_1 AND a.col_2 = BINARY b.col_2 : AND a.col_10 = b.col_10 ``` 3回目 : `col_1`、`col_2`、`col_3` ```sql （以下略） ``` もし、バイナリレベルの差分があれば、原因のカラムを比較する式に`BINARY`句を追加した時点で ID2 のデータが返却されなくなるはずです。

Answer

実際にデータが重複するのを再現出来るだけの情報を提示された方が解決が早いですが、

> SELECT col_1, col_2, col_3, col_4, col_5, col_6, col_7, col_8, col_9
FROM table_2
GROUP BY col_1, col_2, col_3, col_4, col_5, col_6, col_7, col_8, col_9


SELECT **DISTINCT** col_1, col_2, col_3, col_4, col_5, col_6, col_7, col_8, col_9
FROM table_2

としたらどうなりますか？
SELECTされた結果を一意にするには DISTINCT を使います。
GROUP BY はグループ関数とセットで使うのがマナーです。SQLはきちんと覚えた方が良いです。

Answer

2番目のSQLだけでも重複行が存在するというのは変に思えますね。

因みに重複行があるとはco1_1～col_9の何れを比較しても一致する行が2行以上あるということですよね？ソートするとまったく同じ行があったみたいな。
という事は次のどれかでもcol_xに重複が現れるのでしょうか？
```SQL
select co1_1,count(*) as n from table_2 group by co1_1
select co1_2,count(*) as n from table_2 group by co1_2
select co1_3,count(*) as n from table_2 group by co1_3
select co1_4,count(*) as n from table_2 group by co1_4
select co1_5,count(*) as n from table_2 group by co1_5
select co1_6,count(*) as n from table_2 group by co1_6
select co1_7,count(*) as n from table_2 group by co1_7
select co1_8,count(*) as n from table_2 group by co1_8
select co1_9,count(*) as n from table_2 group by co1_9
```
もし重複行が出たとしたらそのカラムに問題があるのかも知れません。

しかし、データ型が文字なら見た目同じでもデータは異なったというケースが想定できますが、数値ではそれも無いでしょうし。

関連した質問