• 最近访问:
发表于 2024-12-23 16:15:20 股吧网页版
智源研究院公布100个模型评测结果
来源:中国经营报

  12月19日,智源研究院发布并解读国内外100多个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。基于评测结果,智源研究院副院长兼总工程师林咏华总结指出,2024年下半年,大模型发展更聚焦综合能力提升与实际应用;多模态模型发展迅速,涌现出不少新的厂商与新的模型,语言模型发展相对放缓。在模型开源生态中,除了Meta这些科技巨头之外,也出现了新的开源贡献者。

  《中国经营报》记者注意到,现场反响最为热烈的环节是由AI大模型实时演示的辩论赛,由阶跃星辰、智谱AI两家国产大模型,与OpenAI的GPT-4o、Anthropicr Claude-3.5两家海外大模型随机“开展辩论”。就“拥抱玄学是不是当代年轻人的精神解脱之道”“功夫熊猫和孙悟空哪一个更适合做队友”两个辩题分别进行正反方辩论,由两名来自北京大学的辩论专家进行现场点评。

  “测评一点也不比开发简单”

  林咏华在现场感叹:“大模型性能测评一点儿也不比大模型开发简单。”她介绍,智源研究院自2023年6月上线了大模型评测平台FlagEval,经过多次迭代升级后,目前已覆盖全球800多个开源、闭源模型,包括20多种任务、90多个评测数据集、超200万条评测题目。值得一提的是,今年9月,智源研究院上线开放了“大模型角斗场”,支持用户通过模型对战来评测模型的性能及服务质量。

  。这些测试结果或排行榜,不仅能够给消费者在纷繁芜杂的应用市场提供一些选择认知参考,而且对企业技术厂商来说也能提供第三方背书,了解自身所处的行业地位。

  智源研究院此次发布的评测结果涉及语言模型、文生图、文生视频多模态模型、语音语言模型等。其中,语言模型针对一般中文场景的开放式问答或者生成任务,模型能力已趋于饱和稳定,但是复杂场景任务的表现,国内头部语言模型仍然与国际一流水平存在显著差距。语言模型主观评测重点考察模型中文能力,结果显示字节跳动的豆包pro、百度文心4.0 Turbo分别位居第一、第二,OpenAI GPT-o1、Anthropic的Claude-3-5分别位列第三、第四,阿里巴巴的千问-Max排名第五。此外,从文生视频多模态模型的测评结果来看,文生视频尚处于起步阶段,画质、镜头动态性、转场流畅度在提升的同时,普遍存在着大幅度的动作易变形、无法理解物理规律、物体消失、闪现、穿模等情况。结果显示,快手可灵1.5高品质版、字节跳动即梦P2.0pro、爱诗科技PixVerse V3、MiniMax 海螺AI、Pika 1.5位列前五。

  语言模型发展放缓,多模态需求蓬勃

  智源研究院在现场真实演示大模型1v1辩论赛的环节引起了热烈的反响,林咏华称由2018年IBM的AI系统Project Debater首次与人类进行现场公开辩论启发,机器与机器对战、机器与人类对抗,都是为了更直观地展示AI的能力。

  谈及测评结果显示的“语言模型发展放缓”观察,林咏华指出,语言模型发展至今已具备了基础能力,以Meta的LLama 405B、阿里巴巴的千问2模型为例,性能表现已很高,后续要实现明显增长不太容易。因此,我们会看到更新更大的语言模型出现的频率有些减缓,发展进入了“深水区”。400B参数量的大语言模型,如果要进行更大的创新,需要投入的资源成本是相当巨大的,“深区水”的创新难度会更大。

  与此同时,林咏华表示:“从全球模型的发展情况来看,模型尺寸正在出现两极分化。”今年11月Hugging Face下载量最高的模型集中于两类:一类是更大、更强的稠密模型,如Llama3.1 405B一个月的下载量达到七八百万次;另一类呈现高下载量的却是7B及以下的小模型。

  与语言模型放缓形成鲜明对比的是,多模态模型的潜力正在逐步显现,需求旺盛,很多场景都依赖多模态模型,而多模态模型的基础能力还没有像语言模型那样达到一定的水平,存在明显的提升空间。在智源研究院看来,预计2025年,多模态模型会层出不穷,包括开源的多模态模型。

  在采访中,林咏华还提到中文互联网“数据孤岛”的问题。十年前,以中文撰写的互联网数据占全球的比例约5%,但自2021年至今,这一数字仅剩下1.3%。需要注意的是,全球使用中文上网的用户数量在十年里变化并不明显,约19%。这一比例呈现如此大落差的原因便是数据孤岛的存在。再以新兴的视频生成模型来看,大量的互联网视频数据并没有被真正地、很好地利用,成为当下视频生成模型的生成质量仍有较大提升空间的原因之一。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
郑重声明:用户在社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500