蔚来自驾介绍softmax,介绍transformer,详细介绍QKV过程LLM为什么是only-Decoder架构,为什么不采用T5架构什么是prefill如何解决长下文问题有哪些降低transformer训练时间复杂度的工作?讲实习,讲论文无code二面不想面了,一面被追着问太痛苦,拒了虾皮知识图谱/NLP一面介绍项目,无八股给了道场景题,怎么使用LLM解决他们的业务问题两道code忘了是啥了挺简单的虾皮二面介绍项目,无八股给了道场景题,怎么使用LLM解决他们的业务问题(梅开二度)无code斑马智行算法实习生一面讲论文(被说没啥创新点,其实确实也是)什么是Lora手撕全排列和文件分块读取字...