数据不够用了?国内外大模型“断炊”
来源:财中社
高质量数据是模型训练中的重要资产,如今,它正像石油一样,快要耗尽了。
据The Information消息,一些测试过Orion的OpenAI员工发现,虽然Orion的性能超过了OpenAI现有的所有模型,但其性能质量提升程度远远小于从GPT-3到GPT-4的飞跃。这意味着,随着高质量数据趋于有限,AI模型的改进速度可能会放缓。
为此,OpenAI成立了一个“基础”团队,以在高质量新数据供应减少的情况下,研究能让AI模型保持改进的新方法。据悉,公司计划基于AI合成数据训练Orion,并在后期训练中对模型作出更多改进。
与此同时,国内大模型也正在面临“数据耗尽”的问题。业界有种说法是,到2026年,自然数据将被大模型全部用完。
其中一个解决方法是采用合成数据。11月,腾讯开源的Hunyuan-Large 正是使用了部分合成数据训练。此外,阿里Qwen2也使用了合成数据。
合成数据被认为有可能解决训练数据耗尽的问题,但关于能否用、如何用,业界仍有一定争议。今年早些时候,《自然》上一篇论文提出,用合成数据有可能导致模型崩溃。除混元外,支持使用合成数据的厂商则包括英伟达、Anthropic等。
郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
评论该主题
帖子不见了!怎么办?作者:您目前是匿名发表 登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
郑重声明:用户在社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》