一面-50min八股:1 Transformer的自注意力过程是怎样的?2 自注意力部分的softmax可以换成sigmoid嘛?为什么不可以?其中softmax输出各部分的概率,这里的概率指的是什么概率?3 微调4 bert5 RAG检索的结果如何评估好坏?最终的回答如何评估好坏?手撕:给出股价列表,求股票买卖两次求最大利润。如输入[1, 3, 4, 0, 7, 6, 0, 6]输出最大利润为7+6=13