数据不够用了？国内外大模型“断炊”_财经评论(cjpl)股吧

股吧首页 > 财经评论吧 > 正文

最近访问：

财经评论吧

返回财经评论吧>>

- 重要股东股权质押数据全览

东方财富资讯君

发表于 2024-11-11 22:37:59 股吧网页版

数据不够用了？国内外大模型“断炊”

来源：财中社

　　高质量数据是模型训练中的重要资产，如今，它正像石油一样，快要耗尽了。

　　据The Information消息，一些测试过Orion的OpenAI员工发现，虽然Orion的性能超过了OpenAI现有的所有模型，但其性能质量提升程度远远小于从GPT-3到GPT-4的飞跃。这意味着，随着高质量数据趋于有限，AI模型的改进速度可能会放缓。

　　为此，OpenAI成立了一个“基础”团队，以在高质量新数据供应减少的情况下，研究能让AI模型保持改进的新方法。据悉，公司计划基于AI合成数据训练Orion，并在后期训练中对模型作出更多改进。

　　与此同时，国内大模型也正在面临“数据耗尽”的问题。业界有种说法是，到2026年，自然数据将被大模型全部用完。

　　其中一个解决方法是采用合成数据。11月，腾讯开源的Hunyuan-Large 正是使用了部分合成数据训练。此外，阿里Qwen2也使用了合成数据。

　　合成数据被认为有可能解决训练数据耗尽的问题，但关于能否用、如何用，业界仍有一定争议。今年早些时候，《自然》上一篇论文提出，用合成数据有可能导致模型崩溃。除混元外，支持使用合成数据的厂商则包括英伟达、Anthropic等。

（文章来源：财中社） [点击查看原文]

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

郑重声明：用户在社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》