同花顺 AIGC算法实习 一面

共40分钟

1.自我介绍

2.拷打第一个项目,先让我详细介绍,然后开始提问,主要提问了强化学习里面奖励函数、ppo算法、KL散度相关的;

3.拷打第二个项目,先让我详细介绍,然后问我向量数据库怎么构建的、数据预处理相关的、向量数据库数据量、lora微调的数据量、对比解码减少幻觉的原理、比赛相关的;

4.反问,问了做什么业务和部门氛围

面试官人很好,这次没算法题,整体感觉还是挺好的,八股还是没有单独问,有路过的佬能说一下去同花顺怎么样吗?

—————————————————-

更新,hr很想让我去,约二面了,但是考虑到钱少事多(?),就祭出苦命话术把面试推了

#实习#
#算法#  #面试中的破防瞬间#  #实习,投递多份简历没人回复怎么办#  #简历被挂麻了,求建议#
全部评论
什么公司的呀
点赞 回复 分享
发布于 2024-04-07 01:01 北京
拿了offer但没去,好像开5k没房补有餐补,位置也是杭州西溪园区这块
点赞 回复 分享
发布于 2024-04-07 09:53 浙江
听你和评论区的大佬们这么一说,我也对同花顺不抱什么希望了。之前也是面试过这公司,体验感极差,两次通知面试都没有及时发我视频会议号,另外他们还专门整一个自己的会议app来开会的。
点赞 回复 分享
发布于 2024-04-17 11:09 香港
同花顺钱少吗?不是杭州同领域基本最高薪资吗,因为是加班最多的
点赞 回复 分享
发布于 2024-06-20 19:38 日本

相关推荐

头像
02-28 16:23
门头沟学院 C++
查看8道真题和解析 软件开发笔面经
点赞 评论 收藏
分享
一、训练范式与核心技术1. 强化学习主导- DeepSeek-R1基于大规模强化学习(RL)完成后训练,其强化学习训练占比超过95%,甚至存在完全依赖RL的DeepSeek-R1-Zero版本。- 传统指令模型(如文心、ChatGPT O1)则更依赖监督微调(SFT)和人类反馈的强化学习(RLHF)。2. 冷启动与多阶段训练- DeepSeek-R1通过引入高质量“冷启动”数据辅助初始阶段学习,并结合多阶段训练策略(如拒绝采样)提升推理能力。- 而指令模型通常直接从预训练模型通过SFT对齐人类偏好。二、能力与任务适配性1. 复杂推理能力- DeepSeek-R1专门针对数学推导、代码生成、逻辑分析等复杂任务优化,其推理过程中支持自我验证、错误检测及多路径探索。- 指令模型更侧重通用对话和指令理解,在复杂推理任务中表现较弱。2. 生成质量差异- DeepSeek-R1的纯RL版本(R1-Zero)存在生成内容可读性较低的问题,需通过混合训练策略改进,- 而指令模型因依赖SFT数据,输出更符合人类语言习惯。三、架构设计与成本效率1. 优化算法创新- DeepSeek-R1采用Group Relative Policy Optimization(GRPO)等新型RL算法,支持无监督条件下的推理能力进化。- 指令模型通常沿用PPO等传统RLHF算法。2. 成本优势- DeepSeek-R1在同等性能下成本比OpenAI o1系列低30倍,且在数学、代码基准测试中达到甚至超越Claude 3.5 Sonnet等模型。四、应用场景与合规性1. 垂直领域适配- DeepSeek-R1更适用于科研、金融等高精度推理场景,- 而ChatGPT O1等指令模型偏向通用客服、教育等泛化场景。 #产品经理#  #Ai产品经理#  #AI#  #牛客创作赏金赛#  #牛客激励计划#
点赞 评论 收藏
分享
评论
1
8
分享

创作者周榜

更多
牛客网
牛客企业服务