AI 中国的崛起是全方位的,DeepSeek 只是其中一个点
2025-03-29 13:37:26
  • 0
  • 0
  • 0

DeepSeek的技术路线在模型建构、减少算力需求以及大面积应用等方面,都展现了强大的实力与潜力。然而,这条主流的技术路线仍充满挑战,比如在数据稀少的领域幻觉非常严重,能把生手引入歧途。本研讨会将探讨AGI的未来形态以及DeepSeek近期可以在哪些方面发力以更有效地协助科学家和人文学者探索非常困难的研究领域,比如直觉和意识。

1月31日,智酷 407 期,邀请武汉大学计算机学院教授蔡恒进分享《DeepSeek的成就和AGI的未来》,中国人民大学哲学院教授刘晓力、Futurelabs未来实验室首席专家胡延平、北京大学新闻与传播学院教授胡泳、北京邮电大学人工智能学院人机交互与认知工程实验室主任刘伟点评,北京信息社会研究所所长王俊秀主持。

以下根据胡延平老师发言内容整理而成:

好,跟各位老师交流一下。刚才前蔡恒进老师和刘晓力老师都讲得非常好。蔡老师尤其有很多更进一步的深度思考,对未来的智能形态,刘老师则从对产品的实际使用体验这些方面,跟我们分享了很多有益的信息。

我觉得,这件事至少可以从两个角度来看。一个角度是说,它的确是我们在大模型 AI 方面取得的一个很好进展,也有很多很棒的地方。但与此同时,我觉得我们也可能需要对它有一个客观的判断。现在我注意到,还是有一些过度解读的地方,尤其是在媒体和自媒体这两个方面。

一个是,比如我们看到它在算力效率方面有很显著的进展,这包括它的工程能力,也确实对相关的芯片算力股造成了一些冲击。另外,从模型的实际使用体验来看,尤其是在数学和编程这方面,相比同类模型也有优势。当然,这是局部优势。它其实没有做充分的对齐,所以很多地方比较犀利,甚至可以让它来骂人,不像很多模型那样谨小慎微、非常中性。还有一个很好的特点是“思维链”的可视化。相比其他模型,从用户获取感或我的实际体验来看,这个真的非常好,它让你看得见它的思维推导过程,你能知道它为什么会得出这样的结果,体验感很不错。

包括 DeepSeek 我认为起到了很好的一个作用,它让 AI“出圈”了。最近这段时间,我身边很多并不熟悉这方面的亲戚、朋友,甚至朋友圈的一些外国友人,都在谈这件事、用这件事。它有一个很好的出圈效应,极大加速了 AI 的普及,所以这是好事。而且我“逢开源必赞”,对于开源模型,只要看到就会极力点赞。为什么呢?因为开源,尤其在 AI2.0 的早期,对整个生态的发展非常重要。

所以这是从它对整个业态有贡献的这一面来看。但与此同时,我也认为有很多过度解读。而且这些过度解读直到现在为止,产生了不少副作用,这些副作用可能是我们接下来要去面对的一些重大问题。我一会儿再稍微分享一些看法。

首先,第一个过度解读是什么呢?从整个 AI2.0 的大周期里面各个小周期来看,DeepSeek 它是在大语言模型(LLM)这个周期上。而这个周期,站在业内来看,是 AI2.0 大模型的第一个阶段。从 LLM 来讲,整体上头部的大模型都已经走向可用和高可用。也就是说,大家体验到的那些比较好的感受,其实不同模型在不同的部分都会有所呈现。

如果横向对比各类模型并充分使用,就会发现,大语言模型的整体水准都差不太多,各有优劣。也许局部峰值差个两三分或五分,但那要经过几百、几千、上万个各种问题的测试,才能更准确反映不同模型的水准,而不是局部个案就能决定。所以这是第一个周期,这个周期已经走向成熟与可用。

所以,DeepSeek 的表现并不是一个局部现象,是所有头部大模型都纷纷达到的水平。不管是Google 的 Gemini,还是 OpenAI,Claude,或者 DeepSeek,包括国内几个大模型,大家在这个方面其

实都差不多。而且现在这个业态其实已经在往第二个、第三个主系统走,就是时空智能、物理现实世界的模型,以及所谓的“世界模型”。虽然离真正的世界模型还差很远,但已经在往第二阶段走了。前面几位老师提到的 AI for Science 等等,实际上都在第二个阶段。因为大语言模型有很多局限性。大语言模型对算力的要求反而相对较低,它的数据量其实也相对有限。全网高质量的数据,连同清洗、标注之类的服务,也就几百个 T。全人类过去数字化、信息化以后真正沉淀下来的高质量数据,其实并没有我们想象中那么“无穷无尽”。用于大模型训练的占比也不一定很大,还有合成数据等等。

接下来讲讲算力这个部分。从周期上来看,DeepSeek 其实是在上一个周期走向成熟的时候出现的。它本身并没有像多模态,包括其他一些视频、音乐、图片生成,以及视觉理解等方面那样具备更多能力,距离物理现实世界的模型这些方面也还有相当的距离。所以说,我们正处在一个行业的第一个周期走向成熟的阶段,用我们的工程化能力和各种智慧,把模型的成本降得更低,把对算力的要求压到最低。但是,这是不是就代表我们在下一个周期也能保持同样的优势呢?我觉得这是需要客观看待的第一个方面。

第二点是关于 DeepSeek 对算力的节约。其实这个节约是有限的,而“有限”包含两个概念:第一,算力的节约有下限。也就是说,从训练到推理,还不可能降到零。模型原理决定了它必须保持一定水平的精度,如果过度蒸馏或者过度量化,就会带来训练和推理资源大幅减少,但同时也会导致模型精度下降——可能损失几个点甚至十几个点的表现。所以这是一个权衡,算力的节约有下限,尤其是训练算力的节约也有下限。但我发现这一方面却存在一些夸大的说法,需要我们更客观地去看待。第三点是对技术报告的解读。其实从模型训练来看,通常是先加法再减法。比如说通常会从 FP16 开始,等训练完成以后,再去做模型的小型化,比如把 70B、32B 甚至压到 1.5B。这些都是先加法、后减法的过程。DeepSeek 肯定也有自己的各种考虑,比如进一步强化某些亮点,或者有难言之隐,一些没放在技术报告里。但无论它怎么创新、结构怎么优化,基本的常识都是不可逾越的,比如说增强学习是更消耗算力的;蒸馏会让模型出现性能损失等。这些都是规律。所以我觉得,业内需要表现出比大众媒体和社会舆论更冷静、理性的一面。当然,这并不影响前面说的那几个正面因素:这确实是一个非常好的模型,对整个 AI 领域起到了提振作用,也对硅谷、对竞争对手带来很大冲击。这些毋庸置疑。但我们不能过度放大、过度解读,就是这么个情况。另外,若说国内在 AI 方面有真正的进展和创新的话,过去几个月其实是一个“AI中国”整体崛起的过程,而不仅仅是 DeepSeek。

DeepSeek 之所以破圈,主要是它在算力方面的节约带来了一种“引爆”效应。然而,在视觉理解模型、实时语音智能、物理法则下的视频生成、双向多模态的生成与理解、AI Agent 学生智能机器人、基于传感融合的 Transformer + BEV 等自动驾驶 2.0 的技术上,国内也有不少企业取得了相当不亚于 DeepSeek 的进展,只是它们没有形成那种“破圈效应”。但站在第二或第三个周期的角度去看,这些都可能是下一个重要的里程碑。因为避免广告嫌疑,我就不一一提名字了。总之,AI 中国的崛起是全方位的,DeepSeek 只是其中一个点。

我觉得我们不能把 DeepSeek 看成是“一切”,它只是一部分。因此,我们要更加理性、全面地去看待这件事。还有一点,站在算力的角度,如果从未来回头看 TPCK(注:此处疑似指某技术或概念,原文未解释),DeepSeek 只是这个进程中的一部分。

因为算力有两条曲线:

•向下的曲线:在过去两年多时间里,训练和推理的成本都显著下降。推理部分的效率提高了上百倍,主要是芯片能效比、模型原理以及软件生态的扩张等综合作用。训练成本甚至可以降到原来的千分之一,还在快速下降。DeepSeek 做到的几倍提升,也是在这一大趋势里并不算特别突出的部分。只不过,它在这种特定条件下,产生了某种“瞬间耦合效应”,导致了破圈。

•向上的曲线:我们面对物理现实、融合传感场景,比如自动驾驶、机器人等,或双向多模态的大模型,它的数据量会指数级增长,跟大语言模型不是一个量级。其训练和推理对算力的消耗远大于大语言模型。包括大语言模型本身,如果开启思维链(比如OpenAI 的 O3 三种模式),其高消耗与低消耗模式可能相差百倍。DeepSeek 的思维链从推理端来看,也会带来更高的算力消耗。最近它的一些卡顿,和大量海外国内用户涌入、网络异常,以及本身推理消耗并不低等原因有关。总之,要看我们处在什么周期、看的是哪条曲线。如果只关注大语言模型并觉得这就是“终点”,算力的消耗永远如此,那就把事情理解得太简单了。

另外,DeepSeek 这件事也超出了它原本的产品范畴。它存在于一个特殊时间点:在特朗普周期的起点上,与新版的“中国威胁论”产生了化学反应,使得全球经济冷战从贸易争端进入 AI 争端的回合。而 AI 争端的核心就是芯片、算力、数据、模型原理等等,代表着科技战 2.0 的启动。

若这个生态走向分裂,高端开源因为各种管制的原因走向闭源,安全、数据保护、知识产权等因素导致合作困难,AI 生态可能就此形成两个体系,一个体系会挤压另一个生态的生存空间,缺乏全球化合作。这样,我们的产业造血和创新循环都会受到影响。

所以在这件事儿中,DeepSeek 是最大受益者,但整个行业不一定是最大受益者。我们要尽量拓展生存和发展空间,扩大生态,让合作伙伴更多,这样才能摊薄芯片开发成本、算力成本、AI 模型训练成本,并通过增加市场规模来进一步降低推理成本,这才是 AI 生态良性发展的方向。

从眼下的状况看,我们并没有很好地把握好这方面的平衡。相关企业确实成功地做了一次全球性的产品公关,震撼了世界,也振奋了人心,产品本身也很优异。但可能并没有站在更高的全局视野上来审视,没能从生态的高度把握总体发展成本与收益。

 
最新文章
相关阅读