#算法#情况: 一面过1、都是简历面2、了不了解rope,知道qwen的rope和deepseek的rope有什么不同吗3、PPO和DPO有什么区别,简单介绍一下4、介绍DPO的原理5、多轮对话与单轮对话计算loss区别6、rope的原理,mla里面的rope是什么原理反问:1、干嘛的具体是30%业务70%研究,主要做智能客服对话和强化学习,业务+科研导向2、多少张卡200-300张代码题:给定一个数组x=[x_1, x_2,x_3 , ..., x_n],要求,实现一个采样器,采样[0, n-1]之间的数据,要求采样0的概率为x_1,采样1的概率为x_2,采样i的概率为x_{i+1},函数输出是X列表中的其中一个例如:给定p=[0.1, 0.3, 0.4 ...],sum(p) = 1,要求采样到0的概率为0.1,采样1的概率为0.3,采样2的概率为0.4需要考虑计算复杂度#输入 x p#输出 xi i=1 ~nimport randomimport bisectdef roule_whe(p): cumu_arrays = [0.0] * (len(p) + 1) for i in range(len(p)): cumu_arrays[i+1] = cumu_arrays[i] + p[i] r = random.random() return bisect.bisect_left(cumu_arrays,r)-1p = [0.1,0.3,0.4,0.2]index = roule_whe(p)print(index)#阿里#