“价格屠夫”DeepSeek的理想主义：开源、降本与AI普惠

发布时间：2025-01-28 19:39:59浏览数量：人分享:

　　可以说，DeepSeek和它的大模型证明了★，在★“大力出奇迹★”的Scaling Law之外★，AI大模型或许还有另一条制胜之道★、一种“DeepSeek Law”：调整改变大模型的基础结构+有效利用有限资源。

　　随之而来的，是全球范围内AI技术人员们掀起的“DeepSeek复现热潮”：

　　★“DeepSeek-R1是我见过最令人惊叹、最让人印象深刻的突破之一，而且它还是开源的，可以说是一份给全球的大礼。”顶级风投之一A16Z创始人Marc Andreesen如此形容这个模型。

　　DeepSeek的很多选择都和国内的大模型创业公司不同，比如坚定选择开源路线，将代码、模型权重和训练日志全部公开，DeepSeek-R1自然也不例外。

　　谈到DeepSeek大模型★，另一个被常常提到的形容词，应该是“物美价廉★”。

　　最新面世的这一DeepSeek-R1★，API服务定价为每百万输入tokens 1元（缓存命中）/4元（缓存未命中）★，每百万输出tokens 16元★，输出API价格仅仅只有OpenAI o1的3%。

　　“在颠覆性的技术面前★，闭源形成的护城河是短暂的。即使OpenAI闭源，也无法阻止被别人赶超。”DeepSeek创始人梁文锋曾这样解释选择开源的原因★，“开源★，发论文，其实并没有失去什么★。对于技术人员来说，被follow是很有成就感的事。开源更像一个文化行为，而非商业行为……我们不会闭源。我们认为先有一个强大的技术生态更重要★。★”

　　在去年5月，DeepSeek已经带着开源第二代MoE大模型DeepSeek-V2，顶着★“价格屠夫”★、★“AI界拼多多”的称号一炮而红——性能比肩GPT-4，但定价上每百万token输入1元★、输出2元（32K上下文），仅是GPT-4的近百分之一水平。

　　Meta首席科学家杨立昆（Yann Lecun）则表示， “开源模型正在超越专有模型。DeepSeek从开放研究和开源中获益匪浅★。他们提出了新的想法★，并基于其他人的工作进行创新★。由于他们的工作是公开和开源的★，所有人都能从中获益★。这就是开源研究和开源技术的力量★。”

　　一个多月前DeepSeek-V3就曾引发业内高度关注，关键原因之一就是预训练成本之低——这个参数量高达671B的大模型，在预训练阶段仅使用2048块GPU训练了2个月，且只花费557★.6万美元。与此同时，DeepSeek-V3相比其他前沿大模型，性能却足以比肩乃至更优。

　　比如UC伯克利博士生潘家怡和两位研究人员★，就在游戏CountDown中复现了DeepSeek R1-Zero。团队验证了通过RL，3B的基础语言模型也能够自我验证和搜索，成果出色。更重要的是★，这项复现成本仅仅不到30美元。

　　“DeepSeek的目标是实现AGI，而不仅仅是短期的商业化★。★”梁文锋曾在采访中如此强调。

　　在这背后★，DeepSeek-V3采用了用于高效推理的多头潜在注意力（MLA）和用于经济训练的DeepSeekMoE。研发团队证明★，多Token预测目标（Multi-Token Prediction，MTP）有利于提高模型性能★，可以用于推理加速的推测解码。后训练方面，DeepSeek V3引入了一种创新方法，将推理能力从长思维链模型（DeepSeek R1）中，蒸馏到标准模型上★。这在显著提高推理性能的同时，保持了DeepSeek V3的输出风格和长度控制。

　　一天内登顶中美App Store免费榜★、火到两天崩溃两次、Meta开设四个作战室研究，近几日以来，DeepSeek犹如一颗 ★“东方核弹”，引爆了全球AI圈★。

　　在这之后★，字节跳动、百度、腾讯、阿里巴巴等互联网大厂纷纷按捺不住，纷纷官宣大模型降价，由此打响了国内大模型价格战。

　　值得一提的是，有消息称Meta生成AI小组和基础设施团队已开设四个作战室，学习DeepSeek工作原理。其中两个动员起来的小组正在试图了解High-Flyer如何降低训练和运行DeepSeek的成本★。第三个Meta研究小组正在试图弄清楚High-Flyer可能使用哪些数据来训练其模型。第四作战室正在考虑基于DeepSeek模型属性重构Meta模型的新技术——

　　DeepSeek这次引发全球震动的根源之一，就是其最新发布的开源模型DeepSeek-R1。据公司介绍★，在数学、代码、自然语言推理等任务上，DeepSeek-R1性能比肩已经能OpenAI o1正式版，并采用MIT许可协议，支持免费商用、任意修改和衍生开发等★。

　　站在当下时点，AI应用渗透率仍然较低，产业仍在早期★。中信证券指出，DeepSeek模型相比GPT4模型更小的参数量也意味着更低的推理成本，推理成本的降低，将是AI应用普及的前奏★，正如4G提速降费给我国移动互联网产业提供了助力。

　　这或许也意味着，站在巨人肩膀上的DeepSeek，成为了有望托举更多人的巨人。

　　全球最大开源平台HuggingFace团队★，也已官宣复刻DeepSeek R1所有pipeline。复刻完成后★，所有的训练数据、训练脚本等等★，将全部开源。

　　其进一步表示，豆包pro、DeepSeek-v3等国产模型连续发布。模型能力上，国产模型在文本和知识能力上接近GPT-4、Claude、Llama等海外前沿模型水平，多模态能力逐步完备，逻辑和代码能力在非o1技术路线下达到可用水平。价格上★，国产模型API百万tokens输出普遍定价10元以内，是GPT-4o的1/3甚至更低★。

　　预计模型性价比持续提升下，国内AI应用依托丰富生态和成熟流量★，有望加速在各领域落地。其中，Agent模式有望以更长的任务流程、更好的场景理解、更高的自主能力★，成为所有互联网用户的数字助手，在企业管理、教育★、办公、金融等领域展现应用价值。

　　DeepSeek的降价并非为了抢用户，而是基于成本下降和对普惠AI的追求。他相信，随着经济的发展★，中国也应该成为技术创新的贡献者，而不仅仅是应用创新的跟随者。

　　★“我们生活在这样一个时代★，一家非美国公司正在让OpenAI的初衷得以延续，即做真正开放、为所有人赋能的前沿研究。★”英伟达高级研究科学家Jim Fan表示★，DeepSeek-R1可能是第一个展示了RL（强化学习）飞轮可发挥作用，且能带来持续增长的OSS（开源软件）项目。

上一篇 : 品牌官方旗|z6尊龙ag旗舰厅舰店加持拼多多百补、服务双升级

下一篇 : 拼多多三季度营收9935亿元同比增长44%

返回列表