智源研究院公布100个模型评测结果_财经评论(cjpl)股吧

股吧首页 > 财经评论吧 > 正文

最近访问：

财经评论吧

返回财经评论吧>>

- 重要股东股权质押数据全览

东方财富资讯君

发表于 2024-12-23 16:15:20 股吧网页版

智源研究院公布100个模型评测结果

来源：中国经营报

　　12月19日，智源研究院发布并解读国内外100多个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。基于评测结果，智源研究院副院长兼总工程师林咏华总结指出，2024年下半年，大模型发展更聚焦综合能力提升与实际应用；多模态模型发展迅速，涌现出不少新的厂商与新的模型，语言模型发展相对放缓。在模型开源生态中，除了Meta这些科技巨头之外，也出现了新的开源贡献者。

　　《中国经营报》记者注意到，现场反响最为热烈的环节是由AI大模型实时演示的辩论赛，由阶跃星辰、智谱AI两家国产大模型，与OpenAI的GPT-4o、Anthropicr Claude-3.5两家海外大模型随机“开展辩论”。就“拥抱玄学是不是当代年轻人的精神解脱之道”“功夫熊猫和孙悟空哪一个更适合做队友”两个辩题分别进行正反方辩论，由两名来自北京大学的辩论专家进行现场点评。

　　“测评一点也不比开发简单”

　　林咏华在现场感叹：“大模型性能测评一点儿也不比大模型开发简单。”她介绍，智源研究院自2023年6月上线了大模型评测平台FlagEval，经过多次迭代升级后，目前已覆盖全球800多个开源、闭源模型，包括20多种任务、90多个评测数据集、超200万条评测题目。值得一提的是，今年9月，智源研究院上线开放了“大模型角斗场”，支持用户通过模型对战来评测模型的性能及服务质量。

　　。这些测试结果或排行榜，不仅能够给消费者在纷繁芜杂的应用市场提供一些选择认知参考，而且对企业技术厂商来说也能提供第三方背书，了解自身所处的行业地位。

　　智源研究院此次发布的评测结果涉及语言模型、文生图、文生视频多模态模型、语音语言模型等。其中，语言模型针对一般中文场景的开放式问答或者生成任务，模型能力已趋于饱和稳定，但是复杂场景任务的表现，国内头部语言模型仍然与国际一流水平存在显著差距。语言模型主观评测重点考察模型中文能力，结果显示字节跳动的豆包pro、百度文心4.0 Turbo分别位居第一、第二，OpenAI GPT-o1、Anthropic的Claude-3-5分别位列第三、第四，阿里巴巴的千问-Max排名第五。此外，从文生视频多模态模型的测评结果来看，文生视频尚处于起步阶段，画质、镜头动态性、转场流畅度在提升的同时，普遍存在着大幅度的动作易变形、无法理解物理规律、物体消失、闪现、穿模等情况。结果显示，快手可灵1.5高品质版、字节跳动即梦P2.0pro、爱诗科技PixVerse V3、MiniMax 海螺AI、Pika 1.5位列前五。

　　语言模型发展放缓，多模态需求蓬勃

　　智源研究院在现场真实演示大模型1v1辩论赛的环节引起了热烈的反响，林咏华称由2018年IBM的AI系统Project Debater首次与人类进行现场公开辩论启发，机器与机器对战、机器与人类对抗，都是为了更直观地展示AI的能力。

　　谈及测评结果显示的“语言模型发展放缓”观察，林咏华指出，语言模型发展至今已具备了基础能力，以Meta的LLama 405B、阿里巴巴的千问2模型为例，性能表现已很高，后续要实现明显增长不太容易。因此，我们会看到更新更大的语言模型出现的频率有些减缓，发展进入了“深水区”。400B参数量的大语言模型，如果要进行更大的创新，需要投入的资源成本是相当巨大的，“深区水”的创新难度会更大。

　　与此同时，林咏华表示：“从全球模型的发展情况来看，模型尺寸正在出现两极分化。”今年11月Hugging Face下载量最高的模型集中于两类：一类是更大、更强的稠密模型，如Llama3.1 405B一个月的下载量达到七八百万次；另一类呈现高下载量的却是7B及以下的小模型。

　　与语言模型放缓形成鲜明对比的是，多模态模型的潜力正在逐步显现，需求旺盛，很多场景都依赖多模态模型，而多模态模型的基础能力还没有像语言模型那样达到一定的水平，存在明显的提升空间。在智源研究院看来，预计2025年，多模态模型会层出不穷，包括开源的多模态模型。

　　在采访中，林咏华还提到中文互联网“数据孤岛”的问题。十年前，以中文撰写的互联网数据占全球的比例约5%，但自2021年至今，这一数字仅剩下1.3%。需要注意的是，全球使用中文上网的用户数量在十年里变化并不明显，约19%。这一比例呈现如此大落差的原因便是数据孤岛的存在。再以新兴的视频生成模型来看，大量的互联网视频数据并没有被真正地、很好地利用，成为当下视频生成模型的生成质量仍有较大提升空间的原因之一。

（文章来源：中国经营报） [点击查看原文]

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

郑重声明：用户在社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》