03-20 08:30 武汉理工大学测试开发发布于广东

关注

LLM的核心框架Transformer

Transformer 是一种深度学习模型架构，由 Google 在 2017 年的论文《Attention is All You Need》中首次提出。它彻底改变了自然语言处理（NLP）领域，并成为现代大型语言模型（如 GPT、BERT 等）的基础架构。Transformer 的核心思想是完全基于自注意力机制（Self-Attention），摒弃了传统的循环神经网络（RNN）和卷积神经网络（CNN）。

以下是关于 Transformer 的介绍：

1. Transformer 的核心组件

(1) 自注意力机制（Self-Attention）

作用：捕捉输入序列中每个词与其他词之间的关系。
原理：通过计算每个词与所有词的注意力权重，动态分配重要性。
公式： [ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V ] 其中： (Q)（Query）：查询向量(K)（Key）：键向量(V)（Value）：值向量(d_k)：向量的维度

(2) 多头注意力（Multi-Head Attention）

作用：扩展模型的能力，使其能够同时关注不同位置的不同特征。
原理：将输入分成多个头，分别计算注意力，最后将结果拼接起来。

(3) 位置编码（Positional Encoding）

作用：为模型提供序列中词的位置信息（因为 Transformer 本身没有顺序信息）。
原理：通过正弦和余弦函数生成位置编码，添加到输入嵌入中。

(4) 前馈神经网络（Feed-Forward Network）

作用：对自注意力机制的输出进行非线性变换。
结构：通常由两层全连接层和激活函数（如 ReLU）组成。

(5) 残差连接与层归一化（Residual Connection & Layer Normalization）

作用：缓解梯度消失问题，加速训练。
原理：将输入直接加到输出上，并进行归一化。

2. Transformer 的架构

(1) 编码器（Encoder）

由多个编码器层堆叠而成。
每个编码器层包括：多头自注意力机制前馈神经网络残差连接和层归一化

(2) 解码器（Decoder）

由多个解码器层堆叠而成。
每个解码器层包括：多头自注意力机制（带掩码，防止未来信息泄露）编码器-解码器注意力机制（关注编码器的输出）前馈神经网络残差连接和层归一化

3. Transformer 的优势

并行计算：与 RNN 不同，Transformer 可以并行处理整个序列，训练速度更快。
长距离依赖：自注意力机制能够捕捉序列中任意两个词之间的关系，解决了 RNN 的长距离依赖问题。
通用性强：适用于多种任务，如翻译、文本生成、分类等。

4. Transformer 的应用

机器翻译：Transformer 最初用于机器翻译任务（如 Google 翻译）。
文本生成：GPT 系列模型基于 Transformer 的解码器部分。
文本理解：BERT 系列模型基于 Transformer 的编码器部分。
多模态任务：Transformer 被扩展到图像、音频等领域（如 Vision Transformer）。

5. Transformer 的变体与改进

BERT：仅使用编码器，专注于双向上下文理解。
GPT：仅使用解码器，专注于文本生成。
T5：将编码器和解码器结合，统一多种 NLP 任务。
Vision Transformer (ViT)：将 Transformer 应用于图像分类任务。
Efficient Transformers：改进 Transformer 的计算效率（如 Longformer、Reformer）。

6. Transformer 的挑战

计算资源需求高：尤其是处理长序列时，计算复杂度较高。
数据需求大：需要大量标注数据或未标注数据进行预训练。
可解释性差：自注意力机制的权重矩阵难以解释。

Transformer 是深度学习领域的里程碑，推动了 NLP 和其他领域的发展。

AI自动测试化入门到精通文章被收录于专栏

如何做AI自动化测试

全部评论

推荐最新楼层

03-05 20:18

门头沟学院 C++

奥比中光C++面经

1.自我介绍2.研究生研究方向和做的项目3.进程，线程，协程区别4.QT槽函数底层原理5.了解哪些涉及模式6.观察者模式如何用C++实现7.有哪些良好的编程习惯8.期望薪资9.反问体感很差的一场面试，面试官一进来就感觉不耐烦，果然八股和项目都不咋问10分面完，查官网反手就给挂了，纯kpi

查看9道真题和解析

点赞评论收藏

分享

03-06 17:22

门头沟学院 Python

作业帮-语音算法实习-一面

一个小时自我介绍介绍实习介绍sensevoice模型原理介绍ctc， loss是怎么计算的，空白符号的作用传统的asr方案了解吗 hmm gmm dnn 和ctc有什么区别怎么得到时间戳有没分析bad case，怎么解决如何解决多人说话混叠问题（pyannote）sensevoicelarge和small有什么区别sensevoicesmall迁移到large有什么考量encoder，decoder，decoder-only的区别ddp和dp的区别网络训练的流程抽象出来介绍一下dynamic batch了解吗dataset随机采样，不同节点的样本长度不一样怎么解决手撕self-attention介绍注意力机制的原理为什么要除以根号dktransformer cnn lstm的区别cnn不能解决长距离依赖吗（空洞卷积）transformer和lstm推理的过程有什么差异反问组内业务#语音算法工程师实习##语音算法##语音算法实习##牛客AI配图神器#

查看21道真题和解析

点赞评论收藏

分享

03-16 13:43

门头沟学院算法工程师

百度-文心一言-一面面经

情况:面完一面过了一周，HR直接发了OFFER，没有二面，已ocPPO与GRPO的区别，分别介绍他们的优势与缺点DPO对齐训练的曲线是怎么样的，正例的概率会提升嘛,参考这个知乎回答:Deepseek-R1里面不仅推理能力很好，而且文采能力也很好，这个是个开放问题，如何让模型的文采能力也很好呢？介绍你在实习做的事情，有遇到什么case嘛，怎么解决的deepseed介绍deepspeed的每一段的通信比较，zero3分别是0和2的多少倍，1.5倍DPO如何解决回答过长的问题，除了正则开放问题：为什么现在大家都在关注于大模型的推理能力reasoning对于一个base model如何增强大模型的re...

查看12道真题和解析技术岗笔试题求解

点赞评论收藏

分享

03-18 11:15

华为_硬件技术工程师

【华为实习生招聘】

华为2026届实习生招聘已启动！【华为 计算产品线】【硬件、逻辑、嵌入式岗位】我们以服务器、CPU、操作系统、数据库、NPU、AI框架等为根技术，围绕鲲鹏、昇腾构建计算产业生态！拥有openEuler开源操作系统、openGuass数据库开源社区、HPC高性能计算、BoostKit应用使能套件等，汇聚各路先进技术栈！作为新兴产品线，前景广阔，业务对标Intel和Nvidia，是公司大力发展的方向！诚邀各位英才加入计算产品线，共同构建最强算力底座，为世界提供第二算力选择！有兴趣的同学可以滴滴我呀～#华为# #实习# #华为实习# #华为招聘#

投递华为等公司10个岗位

点赞评论收藏

分享

03-23 19:38

上海海洋大学 Java

新大陆--java面经

2025-2-21-新大陆介绍一下项目的背景、业务ThreadLocal原理，能做什么事情Java常用集合类有一个集合，有1000条影视记录，有一个评分字段，我想根据评分保存评分最高的30条，应该用什么集合存放，怎么实现线程池的扩容流程CAS的原理是什么，有什么缺点或优点讲一下垃圾回收机制Redis持久化有哪两种方式，两者的优缺点一次循环反转一条单链表二叉树层次遍历，需要用到哪种数据结构怎么判断一个有向图里面有没有环前端了解吗，html, css, js, vue这些docker用过吗如何进入一个docker 容器，命令是啥把容器的文件映射到物理主机，用的是哪个参数mysql怎么看sql有没有...

查看16道真题和解析

点赞评论收藏

分享

评论

点赞

1

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 腾讯音乐求职进展汇总 #

77780次浏览 440人参与

# 入职第一天，你准备什么时候下班 #

37133次浏览 234人参与

# 招行数字金融训练营 #

75239次浏览 333人参与

# 牛友故事会 #

428923次浏览 10387人参与

# 入职第四天，心情怎么样 #

22775次浏览 340人参与

# 小红书工作体验 #

43905次浏览 394人参与

# 腾讯云智研发2025实习生招聘 #

102111次浏览 1213人参与

# 你的工资什么时候发？ #

21380次浏览 172人参与

# 同程旅行工作体验 #

3069次浏览 20人参与

# 这些公司卡简历很严格 #

22428次浏览 90人参与

# 职场破防瞬间 #

32979次浏览 484人参与

# 你的办公桌上都有什么？ #

3843次浏览 31人参与

# Offer比较，求稳定还是求发展 #

34361次浏览 201人参与

# 米哈游工作体验 #

7583次浏览 70人参与

# TP-LINK工作体验 #

42094次浏览 806人参与

# 贝壳求职进展汇总 #

16696次浏览 124人参与

# 元戎启行求职进展汇总 #

27249次浏览 204人参与

# 嵌入式岗知多少 #

30418次浏览 376人参与

# 机械专业只有考研才有出路吗 #

85933次浏览 838人参与

# 同程求职进展汇总 #

9329次浏览 84人参与

# 阿里云工作体验 #

17908次浏览 82人参与

# 今年秋招哪家公司给的薪资最良心？ #

194937次浏览 1159人参与

牛客网
牛客企业服务