12月19日,智源研究院发布并解读国内外100多个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。基于评测结果,智源研究院副院长兼总工程师林咏华总结指出,2024年下半年,大模型发展更聚焦综合能力提升与实际应用;多模态模型发展迅速,涌现出不少新的厂商与新的模型,语言模型发展相对放缓。在模型开源生态中,除了Meta这些科技巨头之外,也出现了新的开源贡献者。
《中国经营报》记者注意到,现场反响最为热烈的环节是由AI大模型实时演示的辩论赛,由阶跃星辰、智谱AI两家国产大模型,与OpenAI的GPT-4o、Anthropicr Claude-3.5两家海外大模型随机“开展辩论”。就“拥抱玄学是不是当代年轻人的精神解脱之道”“功夫熊猫和孙悟空哪一个更适合做队友”两个辩题分别进行正反方辩论,由两名来自北京大学的辩论专家进行现场点评。
“测评一点也不比开发简单”
林咏华在现场感叹:“大模型性能测评一点儿也不比大模型开发简单。”她介绍,智源研究院自2023年6月上线了大模型评测平台FlagEval,经过多次迭代升级后,目前已覆盖全球800多个开源、闭源模型,包括20多种任务、90多个评测数据集、超200万条评测题目。值得一提的是,今年9月,智源研究院上线开放了“大模型角斗场”,支持用户通过模型对战来评测模型的性能及服务质量。
。这些测试结果或排行榜,不仅能够给消费者在纷繁芜杂的应用市场提供一些选择认知参考,而且对企业技术厂商来说也能提供第三方背书,了解自身所处的行业地位。
智源研究院此次发布的评测结果涉及语言模型、文生图、文生视频多模态模型、语音语言模型等。其中,语言模型针对一般中文场景的开放式问答或者生成任务,模型能力已趋于饱和稳定,但是复杂场景任务的表现,国内头部语言模型仍然与国际一流水平存在显著差距。语言模型主观评测重点考察模型中文能力,结果显示字节跳动的豆包pro、百度文心4.0 Turbo分别位居第一、第二,OpenAI GPT-o1、Anthropic的Claude-3-5分别位列第三、第四,阿里巴巴的千问-Max排名第五。此外,从文生视频多模态模型的测评结果来看,文生视频尚处于起步阶段,画质、镜头动态性、转场流畅度在提升的同时,普遍存在着大幅度的动作易变形、无法理解物理规律、物体消失、闪现、穿模等情况。结果显示,快手可灵1.5高品质版、字节跳动即梦P2.0pro、爱诗科技PixVerse V3、MiniMax 海螺AI、Pika 1.5位列前五。
语言模型发展放缓,多模态需求蓬勃
智源研究院在现场真实演示大模型1v1辩论赛的环节引起了热烈的反响,林咏华称由2018年IBM的AI系统Project Debater首次与人类进行现场公开辩论启发,机器与机器对战、机器与人类对抗,都是为了更直观地展示AI的能力。
谈及测评结果显示的“语言模型发展放缓”观察,林咏华指出,语言模型发展至今已具备了基础能力,以Meta的LLama 405B、阿里巴巴的千问2模型为例,性能表现已很高,后续要实现明显增长不太容易。因此,我们会看到更新更大的语言模型出现的频率有些减缓,发展进入了“深水区”。400B参数量的大语言模型,如果要进行更大的创新,需要投入的资源成本是相当巨大的,“深区水”的创新难度会更大。
与此同时,林咏华表示:“从全球模型的发展情况来看,模型尺寸正在出现两极分化。”今年11月Hugging Face下载量最高的模型集中于两类:一类是更大、更强的稠密模型,如Llama3.1 405B一个月的下载量达到七八百万次;另一类呈现高下载量的却是7B及以下的小模型。
与语言模型放缓形成鲜明对比的是,多模态模型的潜力正在逐步显现,需求旺盛,很多场景都依赖多模态模型,而多模态模型的基础能力还没有像语言模型那样达到一定的水平,存在明显的提升空间。在智源研究院看来,预计2025年,多模态模型会层出不穷,包括开源的多模态模型。
在采访中,林咏华还提到中文互联网“数据孤岛”的问题。十年前,以中文撰写的互联网数据占全球的比例约5%,但自2021年至今,这一数字仅剩下1.3%。需要注意的是,全球使用中文上网的用户数量在十年里变化并不明显,约19%。这一比例呈现如此大落差的原因便是数据孤岛的存在。再以新兴的视频生成模型来看,大量的互联网视频数据并没有被真正地、很好地利用,成为当下视频生成模型的生成质量仍有较大提升空间的原因之一。