投的是c++岗,但捞出来的是gpu计算优化。两天速通两面泡池子,发一下面经。一面1,cuda的内存结构2,寄存器的漫溢问题3,一个线程所需要的寄存器数量是否是越少越好4,有什么好的方法来规避溢出的问题 5,cuda编程中共享内存的半个冲突是什么情况6,cuda流7,有访问的优化计算方式8,float49,大模型哪些是decoderonly,哪些是encoder-decoder的模型11,bn和ln的区别二面1,cuda如何设计kernal2,实现两个矩阵的相乘优化3,lfu机制如何用4,blockId和blockDim的常见使用场景5,扩散模型如何抑制去噪的多样化6,扩散推理过程中如何保证内存的优化使用7,如何在encoder-decoder中增加跳跃链接加速训练