国内大模型测评机构SuperCLUE最新发布的《中文大模型基准测评2024年度报告》显示,商汤“日日新”融合大模型以总分68.3与 DeepSeek V3并列国产大模型榜首。另一个综合评测机构OpenCompass开展的多模态评测中,“日日新”融合大模型同样位列榜首,分数领先于GPT-4o。
去年以来,原生多模态大模型逐渐成为业内关注的重要方向。由于数据和训练方法的局限,业内很多机构的尝试并不成功。多模态训练过程往往会导致纯语言任务(尤其是指令跟随和推理任务)的性能严重下降。如今,商汤融合大模型测评排名的领先,意味着原生融合模态训练已取得突破,将引领业界从大语言模型和多模态大模型分立的现状,走向真正意义的模型一统,为深度推理能力与多模态信息结合铺平了道路。
OpenCompass开展的多模态评测中,“日日新”融合大模型位列榜首。
据介绍,“日日新”融合大模型“文理兼修”,在SuperCLUE年度评测中,文科成绩以81.8分排名全球第一,超越OpenAI的o1模型;理科成绩也很出色,其中计算维度以78.2分排名国内第一。
实现原生模态融合后,这个融合大模型不仅能达到人类“看”和“想”的水平,还能帮助用户解决更多复杂问题,看不清的字体、数据图表里的信息、文学创作与文本撰写……这些都可以实现。
英文草书难以辨认,发给“日日新”融合大模型看看,它能快速、准确地识别。
“日日新”融合大模型能准确识别英文草书。
在图表分析场景中,关键要素提取、信息分析、给出结论,这几个步骤它能合一迅速完成。
融合大模型合一迅速完成图表分析的几个步骤。
它也会化身数学和物理老师,为各种难题给出详细的解答。
融合大模型解出一道数学题。
与传统大语言模型仅支持单一文本输入的模式相比,融合大模型具有明显优势,能有效满足用户对图像、视频、语音、文本等多源异构信息的综合处理与识别需求,尤其是在自动驾驶、视频交互、办公教育、金融、园区管理、工业制造等拥有丰富模态信息的应用场景中。例如在办公、金融领域,表格、文本、图片、视频以及融合上述形式的丰富信息,很适合融合大模型分析处理。基于“日日新”的“办公小浣熊”应用可以高效地处理这些复杂任务。
基于融合大模型的优势,“日日新”在视觉交互上也有丰富的应用场景,例如在线上教育、语音客服等场景,均可以结合语音和自然语言来提升交互体验。
商汤研发团队认为,开发多模态模型是AI 2.0实现应用场景落地的必由之路。在推动语言模型和多模态模型融合的过程中,他们研制出两项关键的创新技术——融合模态数据合成与融合任务增强训练,进而完成“日日新”融合大模型的训练。
在预训练阶段,这家企业不仅采用了天然存在的海量图文交错数据,还通过逆渲染、基于混合语义的图像生成等方法,合成了大量融合模态数据,在图文模态之间建立了很多交互桥梁,使模型基座对于模态之间的丰富关系有更扎实的把握,也为更好地完成跨模态任务打下坚实基础,从而提升了整体性能。
在后训练阶段,商汤基于对众多业务场景的了解,构建了大量的跨模态任务,包括视频交互、多模态文档分析、城市场景理解、车载场景理解等。把这些任务融入增强训练后,融合模态模型不仅被激发出强大的多模态信息理解分析能力,还形成了对业务场景有效的响应能力,走通了应用落地“反哺”基础模型迭代的闭环。