• 最近访问:
发表于 2024-11-11 22:37:59 股吧网页版
数据不够用了?国内外大模型“断炊”
来源:财中社

  高质量数据是模型训练中的重要资产,如今,它正像石油一样,快要耗尽了。

  据The Information消息,一些测试过Orion的OpenAI员工发现,虽然Orion的性能超过了OpenAI现有的所有模型,但其性能质量提升程度远远小于从GPT-3到GPT-4的飞跃。这意味着,随着高质量数据趋于有限,AI模型的改进速度可能会放缓。

  为此,OpenAI成立了一个“基础”团队,以在高质量新数据供应减少的情况下,研究能让AI模型保持改进的新方法。据悉,公司计划基于AI合成数据训练Orion,并在后期训练中对模型作出更多改进。

  与此同时,国内大模型也正在面临“数据耗尽”的问题。业界有种说法是,到2026年,自然数据将被大模型全部用完。

  其中一个解决方法是采用合成数据。11月,腾讯开源的Hunyuan-Large 正是使用了部分合成数据训练。此外,阿里Qwen2也使用了合成数据。

  合成数据被认为有可能解决训练数据耗尽的问题,但关于能否用、如何用,业界仍有一定争议。今年早些时候,《自然》上一篇论文提出,用合成数据有可能导致模型崩溃。除混元外,支持使用合成数据的厂商则包括英伟达、Anthropic等。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
郑重声明:用户在社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500