• 最近访问:
发表于 2025-01-10 13:42:50 股吧网页版
DeepSeek“鲇鱼效应” 2025年大模型价格战或将持续
来源:中国经营报

  “性价比”是商业社会中的制胜法宝之一,从消费电子到零售服务,从传统制造业到互联网经济,高性价比在撬动市场、赢得用户方面屡试不爽。而如今,在“规模法则”(Scaling Law)主导下、“大力出奇迹”的大模型“烧钱”竞赛中,来自中国杭州的大模型初创企业深度求索(DeepSeek)凭借高性价比迅速出圈,被冠以“AI界的拼多多”称号,吸引了国内外的广泛关注。

  截至1月10日,深度求索的最新大模型产品DeepSeek V3已发布并开源半个月之久,如同“鲇鱼”般给原本卡在“瓶颈”中的全球大模型市场注入了新的活力,《中国经营报》记者通过采访业内人士,希望深度探讨DeepSeek这条“鲇鱼”将搅起市场的哪些变化。

  “AI界的拼多多”验证新思路?

  DeepSeek被冠以“AI界的拼多多”称号,主要是因为它极高的性价比,与拼多多在电商领域以高性价比著称的模式相似。有趣的是,在DeepSeek V3生成的“自我介绍”中也使用了这一称谓。

  深度求索公司创立于2023年7月,是由中国量化私募公司“幻方量化”创始人梁文峰创立,2024年5月推出了第二代开源模型DeepSeek V2,到2024年12月26日又推出最新的开源模型DeepSeek V3。DeepSeek官网显示,在多项基准测试——涵盖英语、中文、数学、代码等结果中,DeepSeek V3的成绩超过了阿里的千问“Qwen2.5-72B”、Meta公司的Llama3.1-405B等开源模型,而且与OpenAI的GPT-4o、Anthropic公司的Claude3.5-Sonnet两大闭源模型的表现也不相上下。更为重要的是,DeepSeek方面披露,其训练成本仅为557.6万美元和2000块英伟达H800 GPU(图形处理器)。

  与之形成鲜明对比的是,据斯坦福大学HAI研究院发布的《2024年人工智能指数报告》预估,OpenAI于2023年3月发布的GPT-4模型训练成本约在7800万美元,同年发布的谷歌Gemini Ultra的计算成本花费预估为1.91亿美元。据Meta官方信息,2024年7月面世的开源模型Llama3.1-405B,训练使用了1.6万块英伟达H100 GPU。超级富豪埃隆·马斯克同样曾在2024年7月宣布建立孟菲斯超级AI集群,使用10万个英伟达 H100 GPU。另据美国媒体报道,GPT-4o的训练成本约在1亿美元,GPU数量预计在万个级别;而Claude3.5-Sonnet的训练成本或略低于1亿美元,使用的GPU数量推测为数千至上万个。从这些直观的数据对比中不难看出,DeepSeek大幅度降低了模型训练和推理成本。

  关于DeepSeek如何实现高性价比的问题,本报记者咨询了数名来自高校、企业的技术专家,他们做出了一些专业技术方面的解释,涉及多头潜在注意力机制(MLA架构)、稀疏专家混合模型(MoE)架构、FP8混合精度训练、数据蒸馏与算法优化等。简单来说,DeepSeek没有“堆砌算力”,而是在算力限制下转而探索效率优先的途径。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
郑重声明:用户在社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500