字节大模型算法工程师

组是负责处理字节内部事宜的工作,可以说是什么都干,监测票据、查找文本特殊信息、总结文件等等。

拷打实习

transformer 前馈神经网络的结构, 为什么会先提升维度后缩小维度

multihead 如果改变head个数会影响参数量吗

大模型是temperature先起作用还是top p

如何解决幻觉,复读机问题

如何处理局部最优点

过拟合

l1,l2区别,用法

力扣1650  二叉树的最近公共祖先

全部评论
transformer 前馈神经网络的结构, 为什么会先提升维度后缩小维度 这个要怎么回答好呢?
点赞 回复 分享
发布于 09-10 17:17 福建
multihead 如果改变head个数会影响参数量吗,这个答案是什么哦,感觉一直搞不太清参数量和计算量那边,想问一下佬们,单头和多头的参数量的区别是咋样的捏
点赞 回复 分享
发布于 09-24 16:17 上海

相关推荐

评论
9
41
分享
牛客网
牛客企业服务