老婆问我:“大模型的参数到底是什么东西?”

最近DeepSeek很火,老婆问我:“大模型的参数到底是什么东西?”

我:所谓参数,参数,参天之数。其实参数本身就是一个数值,可能其中一个是3.123456789,另一个是-0.0009527。以DeepSpeek-R1最大版本为例,它有671B个参数(B代表十亿)。你可以把这些参数想象成一张巨大的网格,每个网格中都存储着一个数值。一个大模型通常包含几千亿个参数,这些参数占据了模型体积的90%以上。

她听完更懵了:“一堆数字,凭什么能回答各种问题?”但凡你学习过初中数学,不是九年义务教育的漏网之鱼,你就应该知道:

现在我们来拟合一条直线,假如你知道 ab那你就是这条直线的神,只要输入 x,你就能立刻求出 y。换句话说,这两个参数已经完整描述了这条直线的分布规律

我们画个图,假设有这样一条直线:

   y
   ↑
10 |                  *
 8 |              *
 6 |          *
 4 |      *
 2 |  *
 0 +------------------→ x
    0   1   2   3   4  

如果我们已知这条直线上的两个点 (1,2)(3,6),就可以计算出 a = 2, b = 0,得出公式 y = 2x。从此以后,无论给你多少个 x,你都能快速求出 y这意味着直线上的点分布规律被压缩在这两个小小的参数之中。这就是 “拟合” 的概念——用少量参数来概括大量数据的分布规律

那么,大模型是怎么回事?

其实本质上和直线拟合的思想是一样的!不同的是,我们拟合的不再是一条直线,而是这个世界上已知的文本、图片、声音的分布规律。现实世界中这些数据的分布规律要比一条直线的分布规律复杂得多,大模型要把这些复杂的分布规律压缩到大量的参数里。所以需要更复杂的拟合方法,为了捕捉这些复杂规律,大模型采用了诸如自注意力机制、反向传播算法、Transformer 架构等先进的技术和方法。这些方法帮助模型更好地学习数据之间的关系,从而需要成百上千亿个参数来存储和表达所学到的复杂模式。

  • 自注意力机制(Self-Attention):让模型学会关注重要的词,比如“我爱吃苹果”和“苹果手机”中的“苹果”意思不一样。
  • 反向传播算法(Backpropagation):模型通过不断试错,调整参数,让预测结果越来越准确。
  • Transformer 架构:这是大模型的核心结构,能高效处理复杂的文本数据。

参数是咋来的?

参数不是凭空冒出来的,而是通过“训练”得到的。训练的过程就像是你拿着一堆数据(比如文字、图片、视频),让模型去“学习”这些数据的规律。模型一开始啥也不懂,参数都是随机初始化的,可能全是0.000001或者-0.123456这样的乱七八糟的数。然后,模型通过不断地试错,调整这些参数,直到它能很好地拟合数据的规律。

举个例子,假如你有一堆点(x, y),你想用一条直线y = ax + b去拟合这些点。一开始,a和b是随机值,可能拟合出来的直线歪七扭八。然后,你通过计算误差(比如实际y值和预测y值的差距),调整a和b的值,让直线越来越接近这些点。最终,你找到了最合适的a和b,这条直线就能很好地描述这些点的分布规律了。

大模型也是这么干的,只不过它拟合的不是一条直线,而是文字、图片、视频的复杂规律。所以,它需要的参数数量也爆炸式增长,从几个变成了几千亿个。

为什么需要这么多参数?

为啥大模型需要这么多参数?难道不能像y = ax + b一样,用几个参数搞定吗?答案肯定是:不行的!因为现实世界中的数据太复杂。

举个例子,假如你有一张猫的图片,图片里有猫的耳朵、眼睛、胡子、毛色等等。这些特征之间的关系非常复杂,不是一条直线或者一个简单公式能描述的。所以,大模型需要用更多的参数去捕捉这些复杂的规律。

再比如,文字数据。一句话里的每个词都可能和前面的词有关系,甚至和后面的词也有关系。这种关系不是简单的“线性”关系,而是非常复杂的“非线性”关系。所以,大模型需要用更多的参数去捕捉这些复杂的依赖关系。

大模型的核心思想

无论模型多复杂,核心其实就两点:

  • 模型参数(存储规律的那堆数字)
  • 训练方法(找到最佳参数的数学方法)本质上,AI 大模型就是用数学的方法,把世界的分布规律压缩成一堆参数,它们是通过复杂的拟合方法从大量数据中提取出来的规律。这些参数和拟合方法共同构成了大模型的核心,使得它能够处理复杂的任务,比如自然语言理解、图像识别等。无论是简单的线性拟合,还是复杂的深度学习模型,其背后的思想都是相通的:通过参数和拟合方法来捕捉数据的分布规律。
  • 所以,下次听到“大模型有几千亿个参数”时,你可以想象:这就像是一张巨大的网格,每个网格里都存储着一个数,而这些数共同描述了现实世界的复杂规律。

#聊聊我眼中的AI##牛客创作赏金赛#
愿天下没有难改的BUG 文章被收录于专栏

从业十载,一路走来经历坎坷、不顺与阻碍。幸运的是,仍在行业之中。恰逢寒冬,希望能成为一名有温度的技术人,分享所见所闻,讲述职场故事。若这些点滴能如星火照亮你前行的路,便是我与你的难得缘分。

全部评论
原来大家喜欢这种文章风格
点赞 回复 分享
发布于 03-31 15:25 北京
点赞 回复 分享
发布于 03-31 14:51 北京

相关推荐

美团大模型产品转正实习面经(已offer)先说结论:整体看美团的大模型产品面试非常偏技术导向,面试官的水平很高,对项目的技术细节和商业化思路追问的非常细致,面了50分钟左右;需要大家掌握基本的ai技术,对自己所做的业务细节有足够的了解、对未来商业化的路径有思考;我下面的面经拆解也会分成技术常识题和项目细节两个大部分一. 自我介绍在面美团的转正实习之前我只有一段中厂的ai产品实习,并不是很突出;所以我从经验(也就是过去的实习项目)和能力(自己的能力如何和ai产品对口)两个维度介绍了自己,面试官挺感兴趣的,所以后续问题基本是在追问这两个部分二. 项目细节题1. 你们业务这个垂类大模型是怎么训练出来的?垂类大模型主要解决什么问题? 垂类大模型是基于集团内的通用大模型微调的2. 你参与过模型训练吗?会觉得产品是算法工具人吗?产品视角你觉得能为模型训练贡献什么?3. 你提到你们项目目前还在探索商业化路径,那你觉得未来可能是什么盈利模式,或者说你觉得到底什么样的ai产品能赚到钱?4. 你怎么去定义badcase?标准是如何制定出来的?5. badcase的评估是你进行吗,还是有专门的外包团队?6. 了解自动化的ai-native评估方式吗?为什么你们不采用这种方式?7. 你们这个知识库主要场景是什么?传统的ai不能进行这样的知识问答吗?8. rag的流程是什么?9. rag的知识库来源是什么,其中你提到拆分逻辑,这个逻辑是怎么确定的?10. 如何优化rag里的badcase,提升rag效果?三. 技术常识题1. bert和transformer是什么,解释一下2. 为什么有这二者架构上的区别,使用场景上有什么不同?3. 大模型的大体现在哪些方面?4. 为什么传统ai没有像现在这样跑出来5. 为什么现在的ai都是一个字一个字蹦出来回答的6. 什么叫模型的过拟合?7. 你前面也提到dpo,dpo是什么?dpo和sft有什么区别?8. 什么业务该用大模型,什么业务该用小模型?9. 了解注意力机制吗?需要内推的小伙伴可以用下面的内推码哦美团2025届春季校园招聘暨2026届暑期实习(可转正)启动啦带【转正实习】的为26届暑期实习岗招聘岗位:技术类、产品类、商业分析类、零售类、运营类、设计类、市场营销类、职能类、金融类、销售、客服与支持类、综合类等工作城市:北京、上海、深圳、成都、香港、广州等诸多城市内推链接:https://zhaopin.meituan.com/m/campus?zp-from=hiring-campus-bole-elephant&staffSsoId=23765171内推码:RXB7BM8 (简历优先筛选,流程加速推进)
美团
|
实习
|
超多精选岗位
点赞 评论 收藏
分享
评论
5
3
分享

创作者周榜

更多
牛客网
牛客企业服务