字节推荐算法 一面

预测和分类任务的损失函数为什么不一样?

数据分布的差异也是导致预测和分类任务损失函数不一样的原因之一。回归任务面对的是连续变量,其数据分布往往呈现出一定的规律性和连续性;而分类任务处理的是离散的类别标签,数据分布通常是散列的,并且每个类别内部可能并没有明显的先后顺序或大小关系。因此,回归任务更关注于数值预测的精度,而分类任务则更侧重于类别判定的准确性和置信度。这种根本的区别导致了损失函数设计的侧重点不同。

NLP领域预训练模型的发展,transformer比word2vec好在哪里?

Word2Vec:Word2Vec是一种浅层的神经网络模型,主要包括连续词袋(CBOW)和Skip-gram两种方法。其核心思想是通过给定的上下文来预测当前单词或者通过当前单词预测上下文中的单词。
1.这种方法生成的词向量能够捕捉词汇之间的线性关系,但对于更复杂的语义关系则表达能力有限。
2.虽然Word2Vec的训练相对较快,但其生成的词向量是静态的,无法根据不同的语境动态调整。

Transformer:Transformer则采用了深层的自注意力(Self-Attention)机制,能够同时处理输入序列中所有单词之间的关系。
1.这种机制不仅提升了模型对长距离依赖的处理能力,还能捕捉更加丰富的语义信息。
2.Transformer模型通过预训练和微调两个阶段,能够有效利用大规模语料库进行训练,并在具体任务上进行精细调整。这使得Transformer在各类NLP任务中都能够获得良好的性能表

Layer Normalization的作用是什么?能否用Batch Normalizatioin? Layer Normalization跟数据预处理时初始归一化有什么区别?具体怎么做的?

Layer Normalization有助于稳定深层网络的训练,通过对输入的每一层进行标准化处理(使输出均值为0,方差为1),可以加速训练过程并提高模型的稳定性。它通常在自注意力和前馈网络的输出上应用。

批归一化是在一个小批量的维度上进行归一化,这意味着它依赖于批次中所有样本的统计信息。因此,BatchNorm的行为会随着批次大小和内容的变化而变化,这在训练和推理时可能导致不一致的表现。
在处理变长序列和自注意力结构时,BatchNorm可能不如 LayerNorm 高效,因为变长输入使得批次间的统计信息更加不稳定。
BatchNorm在训练时计算当前批次的均值和方差,在推理时使用整个训练集的移动平均统计信息。这种依赖于批次统计信息的特性使得 BatchNorm在小批量或在线学习场景中表现不佳。

编程题:平面坐标里有一堆的点,计算一条直线最多能通过多少个点;

思路:算两个点确定的直线的斜率和截距,然后判断每条直线是否有相同的斜率和截距;
全部评论
好人一生平安。
点赞 回复 分享
发布于 09-10 20:20 福建

相关推荐

08-19 23:14
江苏大学 Python
8.19自我介绍问最近的一个实习项目,是做口腔大模型的:(侧重于模型训练)1.数据集规模、筛选和配比2.超参数有哪些。学习率的选择,怎么寻找超参。小规模数据,怎么跑的,是串行还是并行。loss曲线怎么看的3.DeepSpeed介绍,用的什么配置(zero_2)4.为什么选择 Qwen1.5-32B-chat (就俩卡,用57B跑的太慢)5.BLEU-4的计算公式5.模型评估是怎么做的?第二个实习经历,是做的RAG(侧重于模型底层原理)1.lora介绍,秩的数学意义,怎么计算矩阵的秩2.多路召回是怎么实现的3.向量模型和重排模型的微调是怎么做的4.交叉熵的计算公式。在前向传播的时候为什么选择交叉熵作为loss,为什么不用mse(为什么)5.在模型预测的时候,softmax是把词表的全部token的概率都归一化吗?词表都很大,怎么加速计算(我也没算过啊)本科的项目经历,是一个微博舆情主题及情感演化的时空分析,GitHub上500多star。(侧重于项目设计思路)1.项目的选题和意义2.项目的设计框架算法题:最大连续子数组和。有印象,但是写得太快了没定义好,出现了很多bug,在面试官不断提醒错了后逐步debug出来了。没咋考RAG,更多的是模型侧的,有些没有学到那么深。应用我以为是重点考RAG呢,复习重点错了#快手求职进展汇总##你的秋招第一面感觉怎么样##九月投秋招是不是太晚了?#
点赞 评论 收藏
分享
10 34 评论
分享
牛客网
牛客企业服务