数据分析师需要会爬虫吗

朋友想搞爬虫,我问她为啥想搞爬虫,她说是因为数分要用
全部评论

相关推荐

11-15 20:44
中北大学 后端
自我介绍现在大三 学校让实习嘛 最早什么时候到岗  1.  讲一讲你的项目 和我们业务相契合的地方算法工程方面的- 讲了之前部署的mutualAI社区的事情 还有在strikingly的业务- ollama3 通译7b 2. 之前处理的数据都是文本数据 有处理过类似pdf这样的文件嘛之前处理的确实是文本数据 后面也用过Python的解析库 但是时间有点长 具体讲不明白了3.  Agent框架   用过魔搭社区的4. Python的后端框架都用过那几个   FastAPI Flask Django都用过5. 用没用过FastAPI的后台管理框架 和权限管理的框架?- 没有了解过 之前都是用的Django的6. 爬虫框架你用过嘛- 没用过框架 感觉他们的东西有点重- 用过requests框架 Aiohttp这样的框架 7. Nginx配置跨域 - 这个好久没做忘了8.  Docker 和 K8s用过嘛- 用过docker 没用k8s9.  MySQL优化 怎么优化Mysql- 应该是加索引  redis缓存 本地缓存 联合索引 MySQL的八股需要看一下10. 会构建 数据表嘛- 这个应该是阿里和三范式那一套 记不清楚了(好久没建表了)11. 对我们有什么疑问嘛 - ​问了具体干一些什么事情 听着好像tmd运维 后端 算法全要干 好黑奴12. 机器学习 深度学习了解多少​会一点逻辑回归 支持向量机 随机森林这样的 ​深度学习会CNN RNN这样的13. CICD了解过吗   没做过工程应用 之前 配置了一下 后面交给另一个人了 用gitlab 没有机会学习
查看13道真题和解析
点赞 评论 收藏
分享
#秋招#11月了,算是进入新阶段了。上周五上海台风,在宿舍玩了一天游戏;周六改了改简历,投了几家;周日和本科同学一起citywalk,聊了聊他从实习到现在工作的事。然后周日晚上我突然就顿悟了,想明白了很多东西。1. 可能算法工程师这个岗位对我来说有些难。无论是学历(双非硕),还是能力(无论是创新开始开发水平不足,感觉像个文科生,光写论文了)和知识储备(感觉研究生期间一直给导师打工,人都废了。)2. 接受了开发岗的可能,拥抱过去的自己;回顾了一下本科做的项目,Python,Java,C++都做过,J2EE系统写了不知道多少,都要吐了。现在简历只敢写熟悉“Python和Pytroch”,属于是进化后把过去的技能都丢了,这其实是不对的。3. 接受了自己能力的不足。在本科时,基本上都是完成任务,只要够用就不学新东西,Vue都没学过;研究生期间光做脏活累活,每周PPT汇报,收敛性证明,改论文,跪舔reviewer了,开发能力属于是完全没进步。也就偶尔写点爬虫,写个实验绘图程序,满足个人需求;创新和深入研究是没有的,研一太软弱,导师训斥了一下就放弃了自己的兴趣和想法,做了自己不喜欢的课题。总之就是,我不觉得自己能胜任算法研发创新的工作。4. 接下来的打算:还是对AI和大模型比较感兴趣,今天在Mooc上买了个大模型应用开发课,想着学一学,提升一下自己的简历(开发能力weak);准备下周和隔壁宿舍同学一起参加数学建模比赛(经历weak);学一下Vue和相关推荐算法,把本科做过的图书推荐应用update一下。
2024-11-04
在牛客打卡6天,今天也很努力鸭!
点赞 评论 收藏
分享
9.21.一面 50min 全程八股+算法* 自我介绍* 实习用的golang是吗  介绍一下学了什么技术?* 公司用的rpc框架是哪个?开源的吗还是* 你如何理解rpc?* 和http什么区别,为什么不都用http* haspmap并发下有什么安全问题* 扩容死链是怎么产生的* 什么情况下会产生死锁* 实际开发过程值遇到过死锁吗?* redis持久化 rdb aof讲一下* aof 重写是干什么?* redis有一个bigkey你怎么删掉* redis不是单线程的吗?* fork出来的是子进程?子线程?* 进程和线程的区别* kafka? ...不太会* RabbitMQ和kafka的区别是什么* RabbitMQ吞吐量不高吗?为什么* RabbitMQ如何保证消息可靠?* 确认、持久化机制 就能保证可靠吗?* 持久化机制会不会造成mq性能下降* 零拷贝知道是啥吗?解释一下* io多路复用模型* gmp模型讲一下* p是队列吗?* gmp要这么设计算法:1、k个一组翻转链表    2、最长回文串10.12 二面: 50min多,算法+大部分全场景 问的还是有点难算法:1.比较两个json字符串是否相等(只是顺序不同也是相等 要考虑json套json的情况) 2. n个数的数组1-n 如果有一个数重复出现 则找到并且返回* 微博热搜系统 根据热搜词做排行榜 怎么做?排行榜支持top10查询* 在业务代码层面做排序 选择什么样的数据结构?* 现在有一个爬虫 反复爬取冷门数据 造成热数据在缓存中剔除。从而导致缓存雪崩等问题。你有什么方案?* Redis底层用哪些措施保证读写效率高* Redis集群* 这个系统怎么保证服务稳定性(各个层面* 限流你会怎么做* 你刚刚提到了漏斗桶。还有什么方式做限流* 单元测试存在的意义?你觉得单测会不会和测试人员的工作内容产生冲突?反问:
查看36道真题和解析
点赞 评论 收藏
分享
点赞 收藏 评论
分享
牛客网
牛客企业服务