如何快速的找出重复的数据

现在数据库中有2亿条数据,很多都是重复的,大概真正去重后也就2000多条左右,该怎么快速找出这2000多条数据?
全部评论
hash
点赞 回复 分享
发布于 2017-08-23 20:02
select distinct一下?
点赞 回复 分享
发布于 2017-08-23 20:08
mark。。这种海量数据的怎么搞。。
点赞 回复 分享
发布于 2017-08-23 20:17
布隆过滤器?
点赞 回复 分享
发布于 2017-08-23 20:24
先hash分成很多小文件,然后,分布式进行,hash判断,不知道对不
点赞 回复 分享
发布于 2017-08-23 21:00
如果有这样的情况,不是说明数据库的设计有点问题吗。。。
点赞 回复 分享
发布于 2017-08-23 21:38
总共也就2000多条不同的数据,直接hash不就好了
点赞 回复 分享
发布于 2017-08-23 21:42
为什么数据库会有那么多重复啊,你应该先问面试官让他说说具体情境吧
点赞 回复 分享
发布于 2017-08-24 00:33

相关推荐

点赞 收藏 评论
分享
牛客网
牛客企业服务