“性价比”是商业社会中的制胜法宝之一,从消费电子到零售服务,从传统制造业到互联网经济,高性价比在撬动市场、赢得用户方面屡试不爽。而如今,在“规模法则”(Scaling Law)主导下、“大力出奇迹”的大模型“烧钱”竞赛中,来自中国杭州的大模型初创企业深度求索(DeepSeek)凭借高性价比迅速出圈,被冠以“AI界的拼多多”称号,吸引了国内外的广泛关注。
截至1月10日,深度求索的最新大模型产品DeepSeek V3已发布并开源半个月之久,如同“鲇鱼”般给原本卡在“瓶颈”中的全球大模型市场注入了新的活力,《中国经营报》记者通过采访业内人士,希望深度探讨DeepSeek这条“鲇鱼”将搅起市场的哪些变化。
“AI界的拼多多”验证新思路?
DeepSeek被冠以“AI界的拼多多”称号,主要是因为它极高的性价比,与拼多多在电商领域以高性价比著称的模式相似。有趣的是,在DeepSeek V3生成的“自我介绍”中也使用了这一称谓。
深度求索公司创立于2023年7月,是由中国量化私募公司“幻方量化”创始人梁文峰创立,2024年5月推出了第二代开源模型DeepSeek V2,到2024年12月26日又推出最新的开源模型DeepSeek V3。DeepSeek官网显示,在多项基准测试——涵盖英语、中文、数学、代码等结果中,DeepSeek V3的成绩超过了阿里的千问“Qwen2.5-72B”、Meta公司的Llama3.1-405B等开源模型,而且与OpenAI的GPT-4o、Anthropic公司的Claude3.5-Sonnet两大闭源模型的表现也不相上下。更为重要的是,DeepSeek方面披露,其训练成本仅为557.6万美元和2000块英伟达H800 GPU(图形处理器)。
与之形成鲜明对比的是,据斯坦福大学HAI研究院发布的《2024年人工智能指数报告》预估,OpenAI于2023年3月发布的GPT-4模型训练成本约在7800万美元,同年发布的谷歌Gemini Ultra的计算成本花费预估为1.91亿美元。据Meta官方信息,2024年7月面世的开源模型Llama3.1-405B,训练使用了1.6万块英伟达H100 GPU。超级富豪埃隆·马斯克同样曾在2024年7月宣布建立孟菲斯超级AI集群,使用10万个英伟达 H100 GPU。另据美国媒体报道,GPT-4o的训练成本约在1亿美元,GPU数量预计在万个级别;而Claude3.5-Sonnet的训练成本或略低于1亿美元,使用的GPU数量推测为数千至上万个。从这些直观的数据对比中不难看出,DeepSeek大幅度降低了模型训练和推理成本。
关于DeepSeek如何实现高性价比的问题,本报记者咨询了数名来自高校、企业的技术专家,他们做出了一些专业技术方面的解释,涉及多头潜在注意力机制(MLA架构)、稀疏专家混合模型(MoE)架构、FP8混合精度训练、数据蒸馏与算法优化等。简单来说,DeepSeek没有“堆砌算力”,而是在算力限制下转而探索效率优先的途径。