多模态算法面试题 * 描述CLIP模型如何通过对比学习将图像和文本映射到同一编