百川智能大模型实习一面

被拷打了一个半小时, 感觉也寄了。
1.自我介绍
2. 针对字节的实习,问我 flask 和 go 的 gin 框架的体验和区别(我黑人问号,以为走错了,不记得了,随便说了几句。
3.你熟悉 C++,说一下堆和栈的区别
4.数据结构中堆栈队列介绍一下。
5. 拷打第二份实习大模型的具体内容, 主要还是我介绍。

6. 你知道预训练的一些并行方式吗?
(说没接触过预训练, 大概讲了一下知道的两种常用并行,就是数据并行和模型并行解释了一下)
7.你知道预训练的数据应该怎么预处理吗?
(没懂,我说针对质量进行过滤吧?
8.换句话说, 如果我不需要对所有的数据都训练,只需要对每一部分有权重的取数据怎么做?
(我:最暴力的方法就是每一块都按比重选一定数量再用于训练)
你这个是离线方式,我在线想要调试各种方式怎么做?(我:随机数然后映射到对应的数据去随机取?)
9.你知道 Llama 用了多少 token 数据训练吗?(我 这真没记)
10. 你知道 flask attention 吗?(没用过,不知道原理,只知道这个东西存在。。
11.那你知道 flask attention 能有多大的性能提升吗? 不知道
12. 你知道最早的 attention 做机器翻译,它的注意力怎么得的吗?(不记得,瞎说一通)
13. 这个 attention 和 self attention 的 QKV 怎么来的?(attention 应该是初始化的吧?巴拉巴拉瞎说
14. 有了解过最近那些超长文本大模型的预训练吗?(没有了解具体原理,但是应该就是加大数据训练长度, 用外推更好的位置嵌入吧?)
15. 你说到外推性,那你了解常见的提高外推能力的方式吗?(主要还是位置编码吧? 给他讲解了一下 ALIBI 这个方式)
16 讲一下你对旋转位置编码的理解。
17 位置和注意力分数的曲线是什么样子的呢?(一条向上的抛物线,位置越远注意力越小)
18. 这个曲线会不会和三角函数一样呢?(我觉得如果是用 Transformer 原本的位置嵌入可能会吧。。。。其他的应该不会?)
19 回到我们刚刚说的数据处理, 你能不能用代码实现一下看看?(自己电脑没装 Python  pytorch,就用 Cpp 写,简单写了个逻辑, 随机数有点问题,也跑不通,大概说了一下方式)
在写个反转链表
反问:
全部评论
老哥现在开发和大模型岗位投递意向是五五开吗?
2 回复 分享
发布于 03-12 14:20 北京
反问了具体做什么内容, 偏工程还是科研。自己表现如何。
点赞 回复 分享
发布于 03-12 13:04 北京
已经开始等待CEO面了
点赞 回复 分享
发布于 03-12 16:05 北京
Mark,明早面😡
点赞 回复 分享
发布于 03-14 14:19 北京
我也面了...但听着好像就是让我主要去处理数据(我很菜无论文无实习
点赞 回复 分享
发布于 03-14 17:16 北京
实习整这么难
点赞 回复 分享
发布于 03-18 16:15 广东
大佬投了多久收到电话的
点赞 回复 分享
发布于 03-19 21:18 广东
佬,面试官应该问的是flash attention吧
点赞 回复 分享
发布于 04-25 14:46 上海

相关推荐

16 46 评论
分享
牛客网
牛客企业服务