全球AI大模型热潮已持续了两年多。美国人工智能公司OpenAI于2022年11月份发布GPT—3.0模型后,各国科技厂商纷纷入局“炼”大模型。OpenAI以规模作为大模型的制胜法宝,为追求更高的性能,模型体积不断膨胀,参数数量呈现指数级增长。这种开发模式能源(能源行业分析报告)消耗和训练成本较高。2024年,OpenAI预计亏损额达到50亿美元。
与之形成鲜明对比的是,DeepSeek采取了不同的策略。其发布的大模型R1在多个基准测试中与OpenAI公司2024年12月份发布的o1模型持平,但成本仅为o1的三十分之一。这是对全球AI行业高资本投入型主流创新模式的低成本破冰。作为由对冲基金孵化的非传统AI企业,DeepSeek的跨界突破证明了新兴力量通过差异化技术路线颠覆行业的可能性。
DeepSeek—R1主要在模型架构和训练过程中进行了深度优化,大幅降低了计算资源的消耗和训练成本,并且开源了模型的权重、训练代码和相关工具链。这将推动大模型竞争朝着更加高效、低成本和开放共享的方向发展,进而推动AI大模型在更多行业场景的深入应用。以往,大模型竞争建立在算力的累加上,一些公司甚至不计代价地投入算力来训练大模型。现在,DeepSeek使人们充分意识到,算力也是可以节省的。长期来看,这将极大降低AI的成本和能耗,加快AI在全社会的普及。