SCNUHB 2020-11-10
今天上班的时候,业务方问了我这样一个问题:我有一个表,需要添加一个唯一的字段,但是目前这个字段存在一些重复值,有没有好的解决办法。
这个问题刚听到的时候,说白了我是不会的,因为没有遇到过这样的需求,要在一个重复字段上设置唯一性,必然有数据丢失啊,因为一个字段不可能及时唯一的,又有重复值。于是我详细询问了一下他的需求,最终得知,这个过程中重复的数据只需要保存一条就可以了,可以容忍一部分数据丢失,而重复的字段恰好是时间字段,这样的话,只需要保证每个时间点都有一条记录即可。
听到这里,我想到了下面几个方法:
1.备份表数据,使用distinct的方法过滤这个字段,然后使用连接查询获得其他的字段;
2.备份表数据,然后使用查询表记录里面有重复值的部分,并进行统计,然后随机保留其中的一条记录。
除了这两种方法,在低版本的mysql中还有一种方法,是使用alter ignore table的方法了,这个语法使用的比较少,我这里进行了一个实验进行测试:
[email protected]:yeyztest 23:30:51>>show create table test\G *************************** 1. row *************************** Table: test Create Table: CREATE TABLE `test` ( `id` int(11) NOT NULL AUTO_INCREMENT, `age` int(11) DEFAULT NULL, `score` int(11) NOT NULL, PRIMARY KEY (`id`) ) ENGINE=InnoDB AUTO_INCREMENT=12 DEFAULT CHARSET=utf8 1 row in set (0.00 sec) [email protected]:test 23:38:39>>select * from test; +----+------+-------+ | id | age | score | +----+------+-------+ | 1 | 2 | 3 | | 2 | 2 | 3 | | 3 | 3 | 4 | | 4 | 4 | 5 | +----+------+-------+ 4 rows in set (0.00 sec)
创建一个表,然后插入重复记录,然后对age字段进行添加唯一索引的操作,我们可以看看结果:
[email protected]:test 23:38:43>>alter table test add unique key uni_key(age); ERROR 1062 (23000): Duplicate entry '2' for key 'uni_key' [email protected]:test 23:39:04>>alter ignore table test add unique key uni_key(age); ERROR 1062 (23000): Duplicate entry '2' for key 'uni_key' [email protected]:test 23:39:24>>select @@old_alter_table=1; +---------------------+ | @@old_alter_table=1 | +---------------------+ | 0 | +---------------------+ 1 row in set (0.00 sec) [email protected]:test 23:40:22>>set old_alter_table=1; Query OK, 0 rows affected (0.00 sec) [email protected]:test 23:40:36>>alter ignore table test add unique key uni_key(age); Query OK, 4 rows affected (0.04 sec) Records: 4 Duplicates: 1 Warnings: 0 [email protected]:test 23:40:39>>select * from test; +----+------+-------+ | id | age | score | +----+------+-------+ | 1 | 2 | 3 | | 3 | 3 | 4 | | 4 | 4 | 5 | +----+------+-------+ 3 rows in set (0.00 sec)
可以看到,我们首先使用了传统的直接修改的方法。也就是alter table test的方法,发现有冲突的记录,然后我们该用alter ignore的方法,错误依旧保留,经过查询是少了一个参数,old_alter_table,要想成功实现去除重复记录并且添加唯一索引,需要把这个参数设置为1,最终成功实现了结果。
这里需要注意的是,我的这个测试的环境是MySQL5.5.19,在MySQL5.7环境中,这个测试时不成功的,这种语法被标记为错误语法。所以这个方法只能在MySQL5.5版本中使用。有兴趣的同学可以测一测是否可以在5.6版本上使用。
再说明一点,alter ignore table的本质是创建一张新表,然后新表的结构上age字段是唯一的,再通过insert ignore的语法进行插入,碰到重复的记录,则直接删除。所以,在使用这个语法的时候,请一定注意你的表的数据量,如果数据量比较大的情况,需要谨慎使用,因为他的执行时间可能会很长。
今天就到这里吧。