大文件一般是内存不够,所以需要考虑分而治之,处理一部分或者将流式处理再将结果进行按序的放在磁盘文件中。第一个大文件取中位数,问题在于进行计数,可以先一部分一部分的读,然后计数,然后再从头计数,取对应的中位数,文件去重,可以考虑对文件做hash,然后保存在一个map里,文件不同,hash不同这样来去重
1 1

相关推荐

牛客网
牛客企业服务