神经网络的变革之路——从“神话创造”迈向“科学演进”
作者:智识神工公众号
链接:https://zhuanlan.zhihu.com/p/646032353
来源:知乎
1. 神话的本质
尤瓦尔·赫拉利在《人类简史》中提到大约在7万年前,现代智人发展出了新的语言技能,就是可以传达一些根本不存在的事物的信息,赫拉利称之为“认知革命”,伴随这种虚构想象而来的就是传说、神话以及宗教的诞生[1]。并且基于这些共同想象,人类实现了高效的群体认同,开启了大规模协作之路,一步步走上了食物链的顶端。可以说正是这些神话传说带来了人类物种的崛起,可神话的本质是什么呢,为什么人会创造并相信神话呢?
一种较为被认可的观点是:神话是为了解释自然现象。最早期的人类社会是生活在自然环境紧密联系的状态下,面对日月星辰、季节更替、自然灾害等现象,人类当时没有科学的知识和观察工具,因此很难理解这些现象的原因和规律。为了解释这些自然现象,人们开始创造各种神话和传说,试图通过常见的生活经验元素解释现象背后的原因,如神佛鬼可以看成是人类社会的超自然衍生,而妖魔怪可以看成是动物的超自然衍生。由此可见,神话的本质就是一个“因果”故事链,是基于虚构的超自然元素对自然现象间关系的一种解释。
2. 神经网络模型的“神话创造”
对于当今社会,人类已建立起庞大恢弘的科学体系,足以对自然现象和人类行为进行科学的解释,并不断致力于将这种智能赋予机器,希望让机器成为能思考和认知的新物种(虽然人可能不是这样想的,但结果却是如此)。尤其以ChatGPT为代表的大语言模型的兴起,让很多人相信机器马上就能达到人的智能水平,然而在乐观的情绪之下却容易让人忽视事物发展的本质规律。
当今大语言模型就是一种深度神经网络模型,而深度网络模型的训练本质上就是在构造一种端到端的因果解释,只是应用数学的形式将这种因果解释体现为一个函数映射。然而我们并不能说神经网络模型是用科学工具(数学)实现的,其本身机制就是“科学”的。因为从因果解释的形成机制来看,神经网络模型更接近神话故事,二者都是基于直观现象本身,通过纯粹的经验归纳获得的。神话对于无法解释的现象需要不断地设计新元素、创造新故事来完善自身的“模型”解释。同样神经网络对于预测错误的样本,也需要不断基于新样本数据扩展训练集对网络参数进行微调,这种反复的训练会永无止境。
换句话说,神经网络模型的训练就如同在构造一个神话故事链(一种无法解释的函数映射关系),只能靠新数据不断更新模型,就像神话与宗教可以对任何事物进行解释,如果解释不通就根据新现象改良下,总能自圆其说而无法被证伪。如果神经网络学习是这样一种神话模式,又如何能够具备同人一样的科学认知能力呢,有谁会觉得人类能靠制造神话来达成当代的科学成就呢。然而如何才能让神经网络学习走上“科学”演进的道路呢,我们需要思考和拆解科学与神话的异同。
3. 宗教神话与科学的异同
回望人类历史,从7万年前开始就逐渐诞生出神话传说,而科学思想的出现却要一直等到公元前6世纪,以古希腊为代表的先哲们创造了数学、逻辑学、天文学等学科的基础理论。然而即使科学理论已成雏形,西方仍然被宗教统治了整个中世纪,如果不是黑死病打破了人们对上帝的信仰,可能就不会有随文艺复兴而来的科学兴起。所以科学对于宗教神话并不具备天然优势,二者本质上都是对经验现象的解释,都是一套模型体系,甚至神话比科学有易于接受,毕竟以人为蓝本的神话传说更符合人们的日常想象。
然而科学能够超越宗教成为指导人类社会发展的主导理论,其与神话的差别通俗来说就是科学发展不是靠纯粹实验数据的经验归纳,而是需要归纳与演绎相结合。首先科学需要建立学科概念和公理,并以之为基础向上推演规律预测现实。虽然神话中也可以把一些神的角色定位和彼此关系看作其“概念”和“公理”,但其推演的故事却无法预测现实。另外神话只能靠不断的增加观测现象来完善体系,而科学可以通过自身推演完善体系,相对而言只需要少量的实验观测对体系加以验证。
4. 人工智能的“科学”之路
对人类而言,神话传说不是代表愚昧,而是人类演化的里程碑。同样基于纯粹归纳法的神经网络模型也是AI发展的里程碑,但是这条路已快要走到尽头。 最近由英国和加拿大多所大学AI专家联合发表的文章《递归的诅咒》[2],指出随着AI生成内容(AIGC)被大量的投入到互联网上,模型训练中真正的人类数据比重会大幅降低,从而导致模型崩溃(model collapse)。因为如果模型大量基于自己生成的数据再训练自己,就会让模型放大已学会的特性,脱离实际而陷入自我想象的偏见中,这本质上与强化学习中“自举”(bootstrap)问题本质上是一致的。而相应的在未来人类真实数据会越来越值钱,比如今年5月马斯克宣布推特停止提供免费API,美国最大论坛Rebbit也宣布从6月19日起所有开发者要付费才能获取数据[3]。如果未来神经网络大模型越来越难以获得有效数据,那神话创造模式下的模型学习还能如何演进呢?
所以要让基于神经网络的AI大模型能进一步演进,就必须建立如同人类科学体系一样的知识体系。这个体系需要神经网络能够对领域概念和公理进行表征,并能够基于这些表征进行推演和验证。换句话说就是需要神经网络根据少量的数据输入,就能够建立该类数据有效的知识表达,这种知识表达就像科学概念和公理一样,能够做到简约表达、逻辑自洽且具有可推导性,能够基于演绎建立整个知识体系,而不是基于纯粹的大数据的归纳拟合。在这个方向上,香港大学数据科学研究院院长马毅教授于2022年发表的文章也对智能显现的“简约”与“自洽”原则进行了理论说明和论证[4]。
同样为了开启下一阶段的智能时代,也致力于让AI走上“科学”之路,公司聚焦于新的AI架构探索和数据处理机制设计,主研知识处理器(KPU)作为专用领域AI处理器,通过对领域概念和基础原理的知识化表征和推理,以实现脱离纯粹归纳法,不依赖大数据和大算力的AI处理架构。并且公司首创三位一体的信息安全体系,从数据安全、网络安全和通信安全三个方面全方位保护用户的数据资产,让大家的高质量数据成果能够在未来的AI发展中带来更大的价值回报。
参考资料:
[1] 《人类简史:从动物到上帝》,尤瓦尔·赫拉利;
[2] "The Curse of Recursion: Training on Generated Data Makes Models Forget", Ilia Shumailov等;
[3] 得到头条第二季159期,李南南;
[4] "On the Principles of Parsimony and Self-Consistency for the Emergence of Intelligence", Yi Ma等;
#智识神工#