伊利亚警告,LeCun 嘲笑,奥特曼沉默:缩放法则
作者:365bet体育注册 发布时间:2025-12-31 10:17
新智慧报告主编:丁辉 【新智慧介绍】过去10年,大规模AI模型的技术本质是通过计算过程将电能转化为可重复使用的智能。 2026年,我们需要让AI模型在单位时间内“吃掉”更多的能量,真正将其转化为智能。 2026年AI圈你最害怕什么?自2022年底ChatGPT诞生以来,AI圈子里一直潜伏着一个“幽灵”。从ChatGPT到让世界惊叹的DeepSeek,再到2025年底的Gemini 3、GPT-5.2等,所有这些顶级模型的背后都有这个鬼。他是尺度法则,但让大家担心的是:这个鬼是要撞墙了,还是已经撞墙了? !缩放法已经过期了吗?大人物的意见出现了前所未有的分歧。 Ilya Sutskever公开表示,简单堆叠预训练算力的时代正在进入平台期,智能的增长需要进入新的“研究”Yann LeCun 一如既往地尖刻,认为当前的大型语言模型无论做多少扩展,永远无法达到真正的 AGI。就连 Sam Altman 都公开承认,仅仅依靠更多的 GPU 并不能实现同比例的智能跳跃。当整个行业都受到“数据枯竭”和“算力收益递减”的困扰时,大家都在问:为什么算力还在增加的时候,智能的飞跃却似乎在放缓?最近,当我在浏览的时候知乎上,我读到了新加坡国立大学青年教授、校长陆辰科技的一篇深度文章:《智能增长的瓶颈》(原文附在文末),这篇文章的观点非常独特,站在计算基础设施和范式的下面,探讨了一个更重要、更底层的问题:算力如何转化为智能。e、这种转换机制是否失效。尤阳教授在文章中提出了一个颇具启发性的见解:在过去的10年里,大规模人工智能模型的技术本质是通过计算过程将电能转化为可重复使用的智能。文章系统修复了过去十年大规模模型成功背后的“隐含假设”,并指出这些假设已经接近极限。 1. 智力从何而来?尤阳对“智能”的定义比较容易理解,就是预测和模型创建的能力。在此基础上,他进一步提出:“过去10年,大规模AI模型的技术本质是通过计算过程将电能转化为可重复使用的智能。”这与强化学习之父理查德·萨顿(Richard S. Sutton)的观点相似。在尤阳的叙述中,明确了三个主要共识强调:预训练是智能的主要来源,微调、强化学习等阶段贡献有限。主要原因并不是算法无效,而是能源(算力)投入的规模不在同一个数量级。 Next-Token Prediction是一种非常成功的Loss设计,它最大限度地减少了在没有人工干预的情况下,几乎不为大型AI模型提供limutation训练数据。 Transformer 获胜是因为 Transformer 也是并行计算机。 Transformer 并不是“更像人脑”,而更像 GPU——高度并行、计算密集、可控通信。这三点共同作用,使得从GPT-1、BERT、GPT-2、GPT-3到ChatGPT、Gemini的大规模模型能够在十几年里持续加大算力投入,并不断转化为有形的智能提升。您和杨也指出了真正的瓶颈。 2.真正的“瓶颈”在哪里?在《智能增长的瓶颈》中,尤阳重新定义了“瓶颈”的含义,并明确指出了两种经常被混淆的开发类型:提高效率需要更少的参数和更低的k计算能力来达到相同的效果(如剪枝、蒸馏、低精度、曼巴等)。这种类型的开发对于项目实施和大规模部署很重要,但它并没有直接定义智能的上限。智能上限改进,在相同的总浮点计算限制下,训练出能力更强、泛化能力更好的模型。这是决定智力能否持续跨越的主要指标。在尤阳看来,当前遇到的不是“算力不足”,而是:“我们当前的范式无法充分利用不断增长的算力”。换句话说,问题不在于GPU增长放缓,而在于模型的“反馈能力w”、损失以及计算能力的优化算法都在下降。我们需要让AI模型在单位时间内“吃”更多的能量,真正将其转化为智能。这样看:大模型智能可能还有很大的发展空间,预训练才刚刚开始。 3、未来的方向不是“节省算力”,而是“获得更多算力”。文章对未来路径的判断总体偏向高投资、强基建导向。换句话说,如果不考虑成本,问题不是“如何节省更多”,而是“如何更高效地消耗更多算力”。尤阳提出了一些需要注意的方向:更高的数值精度目前并不会导致FP16→FP32→FP64的智力明显跃升,但这可能是一个“未充分探索”的方向,而不是证伪的。高阶优化器已经从一阶梯度方法转向ds 到高阶优化器,理论上可以提供更“智能”的参数更新路径,但全面更换高阶优化器可能需要很长时间。更具可扩展性的模型架构或损失函数并不以吞吐量或效率为目标,而是以“是否可以在极限计算能力下训练出更强的模型”作为标准。更充分的训练和搜索涉及纪元、超参数以及参数匹配数据和相关性,而不是“运行更多回合”。值得注意的是,文章明确将推理优化、低精度、蒸馏等技术归类为“实现级别”,并强调它们和“智能上限”是两条不同的技术曲线。结论 如果说过去十年人工智能的主要问题是“如何获得更多的计算能力”,那么下一阶段的问题可以是:我们真的知道吗?如何让智能这个计算的力量ng。 《智力增长的瓶颈》就像是写给从业者的技术备忘录:当算力仍在增长,但智力不再“自动升级”时,我们需要重新审视哪些变量真正定义了上限。以下为《智能成长的瓶颈》原文。智能增长的瓶颈 作者:尤阳,新加坡国立大学校长杨教授、绿辰科技创始人。 2026年已经到来。现在,距ChatGPT诞生三年多了,我想就我们的智力水平是否令人满意、未来能否强劲增长,分享一些个人看法。如果有任何错误,请指正。为了深入探讨智能的本质,本文不涉及产品的易用性、成本等商业化或实施过程中的问题,因为这些与智能的成功本质上无关。瓦时智力是什么?事实上,目前还没有明确的定义。从最近图灵奖获得者Demis HassabisAGI的争论来看,我觉得即使是世界顶尖的专家也无法准确定义智能。我个人觉得AGI很难定义,而且它的标准会随着时间的推移而改变。我还记得十多年前,普通人对面部识别技术还持怀疑态度。如果我们把ChatGPT拉回到2006年,我相信当时很多人无疑会相信我们实现了AGI。我认为智能的核心是预测和创造。在我看来,如果我们达到以下状态,我们离AGI就不远了:如果你选择接受哪份工作,你应该充分听取AI的意见。如果你买足球彩票来预测世界杯冠军,充分听取人工智能的意见。如果您有健康问题,您将接受 nAI 制定的计划进行治疗。你无法判断一部奥斯卡获奖电影e是由AI生成的。该石油公司的勘探团队用人工智能取代了所有数值算法。人工智能可以指导初级高铁工程师在5分钟内排除高铁疑难故障。人工智能可以开发一种专门杀死癌细胞而不破坏健康细胞的药物。人工智能可以通过特定区域的地下结构数据准确预测地震发生的时间。等等……现在,我们显然还没有达到目标。未来能否实现,取决于能否突破智慧发展的瓶颈。智能发展的瓶颈 如今,我们经常听到这样的观点:智能的发展存在瓶颈,或者预训练的好处已经耗尽。什么是瓶颈?我们先来探讨一下,智力从何而来?过去10年,大规模人工智能模型的技术本质是通过计算过程将电能转化为可重复使用的智能。 q技术的质量取决于转换的效率。我也听过《月之暗面》的朋友们提到过类似的说法。当今模型的智能很大程度上来自预训练(通常是自监督方法),只有少量来自微调或强化学习。为什么?我们先做一个简单的经济计算:预训练消耗的算力最多,消耗的能源也最多。当然,预训练、微调和强化学习本质上都是计算梯度来更新参数。如果有合适的海量数据和Loss函数,未来预训练阶段也可以使用SFT(监督微调)或者特殊的强化学习方法。从智能成长的角度来看,我们不再需要区分预训练、SFT和强化学习。它们的区别主要取决于更新参数的数量和规模。来自一个计算角度:预训练、微调和强化学习(例如GRPO)都会计算梯度模拟并使用它们来更新参数。那么,能量从哪里来呢?这就是 GPU 或计算能力。 NVIDIA在这一点上做出了最大的贡献。虽然NVIDIA拥有很多先进的技术,比如更强大的Tensor Cores、Transformer Engine、互连技术(NVLink/Networked NVLink)、软件堆栈等,但我首先尝试简明扼要地解释一下NVIDIA这几年做的最重要的技术事情就是rot,即它的GPU设计的基本思想。简而言之,过去几年Nvidia最重要的路线就是在相同的物理空间中堆叠更多的HBM(高带宽内存)。虽然HBM具有高带宽,但它仍然是计算核心之外的存储器(Off-chip from thelogic die),与计算核心具有不可忽略的物理距离。为了掩盖内存访问延迟,GPU只能依靠海量的Batch Size(批处理量)和海量的数据处理并行性。 NVIDIA GPU 本质上是一台并行计算机。因此,NVIDIA对算法层和软件层的要求非常明确:必须提供足够大的Batch Size或者并行度。面对NVIDIA的要求,许多研究小组都提出了自己的解决方案。例如RNN、Transformer、卷积序列模型(CNN for Sequence)等。甚至有人尝试使用SVM来处理大规模序列数据。那么为什么变形金刚首先出现呢?因为Transformer也是一台并行计算机。这里我引用Ilya Sutskever的一句话:变形金刚:变相的并行计算机。简单的定义是:Transformer 本质上是一个包裹在神经网络外壳中的并行计算机。这也是 Transformer 能够首先展现智能的主要原因,作为它的并行计算支柱特性与GPU的并行计算单元完美匹配。同时,OpenAI完美实现了Next-Token Prediction Loss功能,为AI提供了几乎没有有限训练数据的大模型。理论上,BERT Loss 函数(完形填空和 Next Sentence Prediction)也可以提供几乎无限的数据,但在实践中,Next-Token Prediction 的效果明显更好。我推测试发现,这个Loss function最大限度地减少了人类的干预——它不是人类设计的,而是大自然在进化过程中赋予人类大脑的逻辑。此外,Next-Token Prediction 实际上是预测未来,而 BERT 的完形填空实际上是将过去的信息与当前的信息联系起来。这就像请一位足球专家根据历史数据和今天的比赛结果来解释其中的道理。几乎任何专家都可以做到这一点;然而,如果让专家预测每场比赛的确切比分,他们往往会感到困惑。这再次表明了预测是智力的主要能力,比解释更困难。其实我很佩服OpenAI团队坚持下去的勇气。 2018年,BERT的媒体影响力几乎完全超越GPT,而当时OpenAI的AI研发团队规模与谷歌相比简直可以忽略不计。我很钦佩他们没有放弃 Next-Token Prediction,或者选择类似 BERT 的训练方法。真相往往需要时间去检验。同时,以Transformer为核心的解决方案获得了“一石二鸟”的双重优势:模型每层参数越多,并行度(Tensor Parallelism)越高。因此,只要通信成本不大幅增加,就可以同时使用更多的计算能力。它需要行业领袖的赞扬。几年前,我在 CNN 期间看到研究人员试图建立深度模型,就像思考 1000 层神经网络一样。其实很有深度(太多层)神经网络无助于计算能力的有效利用,因为管道并行提供的并行上限并不高。不同的 Transformer Token 可以同时计算。序列长度越长,并行度越高。只要通信成本不大幅增加,就可以同时使用更多的计算能力。序列并行性补充了数据并行性并进一步提供了并行性。就这样,我们今天见证了GPT-1、BERT、GPT-2、GPT-3、ChatGPT、Gemini一步一步押注智能在顶端。至此,大家大概明白为什么AI模型的智能增长成为了瓶颈——因为我们现有的范式无法完全消化算力的不断增长。假设当一个模型训练和微调所使用的浮点计算次数(即具体的计算量)程序员面试中的灵活性)从 10^n 变为 10^{n+3},我们是否得到了更好的模型?事实上,很多时候我们混淆了“效率优化技术”和“智能改进技术”。比如明天我会提出一个新的架构,实验发现它只需要20%的参数或者计算就可以达到和GPT-5类似的效果。这实际上更多是一个实施或商业化的问题; pinafinal的独创性问题是:使用相同数量的浮点计算(而不是Token数量)是否可以得到更好的模型。浮点计算的次数是计算能力最基本、最重要的衡量单位。未来方法的讨论首先,从硬件层来说,我们需要不断产生更多的绝对计算能力,而这不一定局限于提高每个芯片单元的计算能力。虽然单位芯片的算力没有大幅提升,但我们可以通过集群产生更大的绝对计算能力。这里需要达成的平衡是,组合芯片带来的性能提升高于“芯片或服务器之间通信增加带来的负担”。因此,具体的硬指标是:提高或至少维持“计算开销/通信开销”比率。这是整个AI基础设施层的主要技术目标。为了实现这一目标,我们需要更好的可扩展并行计算技术,无论是软件还是硬件。在更高层次的探索上,我们需要让AI模型在单位时间内“吃”更多的能量,真正将其转化为智能。我个人觉得很可能有以下几个方向:更高精度的计算能力。现在,从FP16到FP32,甚至FP64,模型智能并没有明显的跳跃。这本身就是一个瓶颈。理论上,更高的精度应该导致更可靠的计算n 结果,这早已在传统科学计算中得到了证明。这种观点可能不符合主流机器学习共识,可能需要很长时间才能真正发生,但本质上,智能仍然需要更精确的计算。这与过度拟合没有直接关系。过拟合的主要原因是数据量不足或参数与数据不匹配。高阶优化器。 Google 的朋友告诉我,有时他们不再使用类似 Adam 的优化器,而是使用高阶优化器来训练模型。理论上,高阶优化器可以在学习过程中为模型提供更好的指导并计算更好的梯度。这就是智能模型改进的本质。当然,完全替换高阶优化器可能需要很长时间。又一种 nasussize 模型架构或损失函数。我们仍然需要一种更具可扩展性的方式来集成和使用计算能力。我们需要注意这一点:优化效率并不一定能提高智力。例如,当Mamba问世时,宣传的重点是提高吞吐量并使用更小的模型来获得相同水平的智能。不过,本文的重点是:拥有最完善的AI基础设施,以可接受的最高成本,能否训练出更好的模型,获得更高的智能。比如今天谷歌告诉你:用300亿美元的预算,半年时间给我训练一个更好的模型。不管省钱,花10亿和花100亿没有什么区别。在这种情况下,你会使用类似 Mamba 的架构吗?需要设计更好的损失函数?更多纪元和更好的超参数 由于成本压力,我们今天还没有真正优化 AI 模型,甚至没有深入研究超参数。这也正是我对AI模型的智能程度不断增长充满信心的原因。我的意思不是他re 是直接训练更多Epoch。在不知道效率低下的情况下运行更多 Epoch 确实是一种糟糕的技术(例如,参数量与数据量不匹配)。但从根本上来说,更多的 Epoch 意味着更多的浮点数和更多的能量。我们需要找到“吃掉”更多能量并将其转化为更高智力的方法。有些技术对于人工智能的大规模落地至关重要,比如低精度训练、剪枝、量化、蒸馏、PD分离等推理优化技术。然而,在“算力转化为智能”极其有效的情况下,这些技术与提高智能上限无关。作者非常尊重这些技术的贡献者。它们对于实际实现很重要,但与本文讨论的主题无关。智能增长最终是利用计算机的问题廷电源。如果我们假设计算能力是无限的,比如集群的计算能力达到今天的万亿倍,我们可以看到更简单的模型结构比 Transformer 和 Next-Token Prediction 具有更好的扩展性。从SVM到CNN、LSTM、BERT、GPT、MoE:我们一直在寻找能够更有效地利用计算能力并具有更好扩展性的方法。在这个过程中,主要原因是问题的规模不断扩大。在人工智能出现之前,我们已经实现了天气预报,但我们仍然无法击败地震预测,尽管两者都是对地球数据的重要研究。原因是地下结构包含比环境更复杂、尺寸变量更大的动态多模态数据。这种使用传统计算模型难以控制的高维复杂性正是未来人工智能技术的有希望的机会所在。因此,我有信心未来我们将继续寻找更好的方式来使用计算能力。虽然过程中可能会遇到很多困难和挫折,但大势所趋是不可阻挡的。最后,我想引用Richard Sutton教授的一句话来结束:70年人工智能研究的最大教训是,依赖计算能力的通用方法才是最终的赢家,拥有巨大的优势。 https://zhuanlan.zhihu.com/p/1989100535295538013 秒关注ASI ⭐点赞、转发、观看一键⭐点亮星星,锁定新智元快推! 特别声明:以上内容(如有,包括照片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。 注:以上内容(包括图片和视频,如有)由网易号用户上传并发布,网易号为社交媒体平台,仅提供信息化仓储服务。
电话
020-66888888