字节大模型算法工程师
组是负责处理字节内部事宜的工作,可以说是什么都干,监测票据、查找文本特殊信息、总结文件等等。
拷打实习
transformer 前馈神经网络的结构, 为什么会先提升维度后缩小维度
multihead 如果改变head个数会影响参数量吗
大模型是temperature先起作用还是top p
如何解决幻觉,复读机问题
如何处理局部最优点
过拟合
l1,l2区别,用法
力扣1650 二叉树的最近公共祖先
组是负责处理字节内部事宜的工作,可以说是什么都干,监测票据、查找文本特殊信息、总结文件等等。
拷打实习
transformer 前馈神经网络的结构, 为什么会先提升维度后缩小维度
multihead 如果改变head个数会影响参数量吗
大模型是temperature先起作用还是top p
如何解决幻觉,复读机问题
如何处理局部最优点
过拟合
l1,l2区别,用法
力扣1650 二叉树的最近公共祖先
相关推荐