DeepSeek开源模型的问世对于我国在人工智能领域突破西方的科技封锁意义重大,但这并不代表算力不再重要。训练新的进阶模型和将模型用于全行业,拥有更强的算力基础设施依旧是成功的关键要素之一。算力依旧是重要战略资源,在很长一段时间里需求仍将持续增长,而美国将用各种手段“卡算力”,以影响我们的人工智能科研进度。
DeepSeek开源模型的出现,标志着通过算力来限制中国人工智能发展的策略并不成功。在有限算力的非公平竞争下,中国不再抄作业,中国的年轻人提出了我们自己的原创技术,成果震动全球并向全球开源。但算力还是非常重要的战略资源,我们需更坚定地加以储备,支撑优秀的团队开展研究,更优的算力储备意味着研发下一代模型的时间成本优势,为此国产算力芯片自主制造和生态能力必须争分夺秒地迎头赶上。
DeepSeek-V3的训练总成本约为557.6万美元。其训练成本虽较同类产品大幅降低,但母公司为了这次训练所付出的前期试错成本,外界则不得而知。DeepSeek母公司幻方量化曾囤积上万张GPU芯片(芯片行业分析报告)。没有这些算力的储备,DeepSeek的这次突破是不太可能的。训练大模型所需算力下降,不意味着社会总的算力需求下降。
一个好用的模型带来的是千行万业的大规模应用,在不远的将来,使用大模型将嵌入生活的方方面面,模型后训练和推理需求会大幅超过预训练算力需求。算力基础设施的投入回报要用长远的、发展的眼光。“政府需要科学评估着眼未来的硬件情况和市场需求,更多考虑如何为有创造力的科研团队提供算力保障,降低创新成本,提高创新速度,即使不赚钱、折旧快,依然要坚定地加速建设智能算力功能性公共服务设施。