清华系的AI infra创业公司,规模比较小,全是清华大佬,被狠狠吊打。一面八股transformer的模型结构有哪些位置编码?其特点是什么?GQAFlash Attention?Page AttentionDecoder-Only和Encoder-Decoder-Only模型相比有什么区别?手撕CUDA规约计算反问培养及管理体系二面二面应该是技术负责人了,项目拷打,问的特别细特别深,当时面试完人麻了,也没有录音记录,所以细节已经忘掉了。因为他们公司跟我实习的公司有业务合作,所以这位技术大佬比我还了解实习公司的业务,面试过程快扣出四室一厅了,毫无疑问的挂了。