字节大模型算法工程师

组是负责处理字节内部事宜的工作,可以说是什么都干,监测票据、查找文本特殊信息、总结文件等等。

拷打实习

transformer 前馈神经网络的结构, 为什么会先提升维度后缩小维度

multihead 如果改变head个数会影响参数量吗

大模型是temperature先起作用还是top p

如何解决幻觉,复读机问题

如何处理局部最优点

过拟合

l1,l2区别,用法

力扣1650  二叉树的最近公共祖先

全部评论
transformer 前馈神经网络的结构, 为什么会先提升维度后缩小维度 这个要怎么回答好呢?
点赞 回复 分享
发布于 09-10 17:17 福建

相关推荐

7 22 评论
分享
牛客网
牛客企业服务