大佬们好,我问个八股呗,求解答。
嗯就是那种很大文件的那种的,然后就比如一个大文件然后取中位数啥的,然后还有两个大文件取交集,或者文件去重等等搞得我好懵😂,太菜了哈哈,希望大家能够帮助一下,让我对这些八股能够有很好的应对方法。
全部评论
大文件一般是内存不够,所以需要考虑分而治之,处理一部分或者将流式处理再将结果进行按序的放在磁盘文件中。第一个大文件取中位数,问题在于进行计数,可以先一部分一部分的读,然后计数,然后再从头计数,取对应的中位数,文件去重,可以考虑对文件做hash,然后保存在一个map里,文件不同,hash不同这样来去重
昨天面百度,问了200亿个url,10个kv数据库,怎么检索?
俺会了。分而治之。先分,在对每小块进行处理,再合并。基本思路是这些。嗯多搜搜,然后问问chatGPT再就可以了,哈哈。
我昨天面试被问到 但是面试官就问我 怎么把大文件拆分成小文件在读入呢
可以用mmap映射读取部分数据吗
相关推荐
点赞 评论 收藏
分享