中原银行算法工程师面试之解答

Bert的模型架构讲一下?

BERT模型的全称是:BidirectionalEncoder Representations from Transformer,也就是说,Transformer是组成BERT的核心模块,而Attention机制又是Transformer中最关键的部分,因此,利用Attention机制构建Transformer模块,在此基础上,用多层Transformer组装BERT模型。

Attention机制主要涉及到三个概念:Query、Key和Value。在上面增强字的语义表示这个应用场景中,目标字及其上下文的字都有各自的原始Value,Attention机制将目标字作为Query、其上下文的各个字作为Key,并将Query与各个Key的相似性作为权重,把上下文各个字的Value融入目标字的原始Value中。该Attention机制也叫Self-Attention。

说一下机器学习和神经网络之间的模型之间的区别

1.数据依赖

随着数据量的增加,二者的表现有很大区别:

深度学习适合处理大数据,而数据量比较小的时候,用传统机器学习方法也许更合适。

2.硬件

深度学习十分地依赖于高端的硬件设施,深度学习都要求有GPU参与运算。相反,普通的机器学习对于硬件不太依赖。

3.特征工程

在机器学习方法中,几乎所有的特征都需要通过行业专家在确定,然后手工就特征进行编码。

然而深度学习算法试图自己从数据中学习特征。

4.模型大小

深度学习训练出来的模型参数可以达到几千亿,非常大。而机器学习模型很小,甚至有的算法本身就是模型,可执行文件很小。

5.运行时间

深度学习需要花大量的时间来训练,因为有太多的参数需要去学习。但是机器学习一般几秒钟最多几小时就可以训练好。

而运行时间机器学习更快,甚至几ms

6.可理解性

深度学习很多时候我们难以理解。至今无法用精准的数学模型来描述。

但是机器学习不一样,比如决策树算法,就可以明确地把规则给你列出来,每一个规则,每一个特征,你都可以理解。

如果模型过拟合了应该怎么处理?

以上答案均来自本人专栏:机器学习面试题汇总与解析(蒋豆芽面试题总结)

欢迎大家围观:https://blog.nowcoder.net/jiangwenbo

牛友面经解答 文章被收录于专栏

这个专栏专门用于为牛友解答面经,希望能帮助到大家。

全部评论

相关推荐

10-17 10:05
已编辑
北华大学 全栈开发
牛客872465272号:掉头发了哥
点赞 评论 收藏
分享
14 55 评论
分享
牛客网
牛客企业服务