• 最近访问:
发表于 2025-01-14 13:30:05 东方财富Android版 发布于 四川
转发
发表于 2025-01-14 12:08:41 发布于 山西

$商汤-W(HK|00020)$  

告别AI“跷跷板”,商汤“换道超车”

原创 周一笑 硅星人Pro 2025年01月14日 10:49 北京 62人

图片

作者周一笑你是否遇到过这样的场景:面对一份包含大量图表、文字信息的会议纪要,你希望AI能帮助你快速提炼。然而,手中的AI工具却只抓取了文字部分,对关键的图表视而不见,你不得不再次手动梳理,效率还不如自己从头来做。

好的用户体验应该是这样的:

图片

向下滑动查看完整图片

这就是最新的商汤“日日新”融合大模型展现出来的能力。它能像我们人类一样,眼观六路、耳听八方,将现实世界中的文字、图像、声音等多种信息融合起来思考,在融会贯通后,形成对世界的认知与理解,高效解决实际问题。

根据权威评测,商汤“日日新”融合大模型在AI在理解和处理复杂信息上,已经实现了行业的跨越式突破。在OpenCompass多模态评测中,“日日新”超过了GPT-4o、Claude 3.5 Sonnet等获得第一。

图片

在另一个权威大模型测评机构 SuperCLUE 最新发布的《中文大模型基准测评2024年度报告》,商汤“日日新”融合大模型也以总分 68.3 的优异成绩,与DeepSeek V3并列国内榜首。

图片

同一个模型、同时拿下了多模态测评和通用能力测评的双料冠军,这就比较厉害了。也就是说“日日新”融合大模型,实现了单一模型,同时在图文场景、纯语言、推理等场景能达到业内最优秀的水平。

这也意味着它解决了多模态AI领域长期存在的一个“老大难”问题——跷跷板效应。啥意思呢?以前的多模态模型,受限于技术局限,往往只能在一个方向维度上保持高水平,熊掌和鱼翅,很难兼得。

因此目前,国内其他的语言模型和多模态模型仍然是相互独立的,难以真正实现不同模态之间的无缝融合。此次,商汤在原生融合模态训练方面取得的实质性突破,对于引领和推动国内大模型,从语言和多模态分立走向一统,将起到关键作用。

根据商汤科技联合创始人、人工智能基础设施及大模型首席科学家林达华介绍,为解决这一问题,商汤攻克了两项阻碍多模态模型研究的关键技术点:融合模态数据合成,和融合任务增强训练。通过高质量、多样化的数据积累,并创新性地进行数据再生产和合成,以及通过构建大量的跨模态桥梁等方法,从根本上解决了数据和融合等问题。

这也正是包括OpenAI、Google在内的全球顶尖研究机构都在努力攻克的方向。例如,OpenAI推出的GPT-4o,以及Google的Gemini系列,都在朝着单一模型体系融合多种模态处理能力的方向发展,力求打破AI的“感知盲区”。

图片

1

实测案例,解锁更多应用场景

“日日新”融合大模型目前已经可以通过“商量”网页版进行体验,硅星人也在得知消息的第一时间对它进行了一番考验。

图片

向下滑动查看完整图片    识别并解答手写数学题在教育场景中,学生常常通过手写方式记录和解答数学题。对于潦草的手写体,传统的AI模型可能难以准确识别。“日日新”融合大模型借助多模态理解能力,不但能够准确识别,还能给出详尽的解题推导过程及正确答案。图片看懂“抽象”玩偶

AI能懂年轻人钟爱的抽象文化吗?它不仅能认出这是个玩偶,还能分析出它的颜色、材质,甚至连设计背后的 “小心思” 和文化内涵都能 get 到位。

能看懂宏观经济图表,还能进行推理分析

在真实场景中,我们常常需要解读复杂图表。“日日新”不仅能看懂这些复杂的图表,还会通过逻辑推理,将图表和内容之间的关系梳理清楚,从而提供具有实际参考价值的分析支持,无论是商业决策还是个人规划都更加从容。

1

多模融合,换道超车

随着融合模态有效提升AI大模型性能,商汤“日日新”融合大模态模型将广泛应用于诸多场景,包括智能硬件、在线教育、具身智能机器人等,实现跨模态交互,提升交互体验。

除此之外,采用原生融合方法训练的多模态模型,未来还有更多的潜力等待挖掘。比如落地在许多垂直行业和企业级场景,帮助企业实现“降本增效”,为社会带来效能。

想象一下,在一个智能化的产业园区里,摄像头捕捉到工人在违规操作,如果仅仅依靠传统的图像识别技术,可能只能发出一个冰冷的警报。但有了融合大模型,它可以结合现场的视频画面、操作手册的文字说明、以及历史违规记录等多模态信息,判断工人是否真的存在安全风险,并给出更精准的指导和建议,甚至可以主动联系安全负责人。

再比如,在电商平台的客服场景中,用户发来一张商品破损的照片,并用文字描述了问题。传统的客服系统可能需要人工介入才能判断责任归属和处理方案。但融合大模型可以同时理解图片和文字信息,快速判断破损程度和原因,并自动生成退换货申请,大大提升了客户服务的效率和用户体验。

再比如,在医疗领域,医生可以通过上传病人的影像资料和病历报告,综合分析,辅助诊断,提供更精准的治疗方案。在金融领域,分析师可以快速解读包含图表和文字的财务报告,更高效地进行投资决策。甚至在工业生产中,工程师可以通过上传设备的照片和维修记录,诊断故障原因,提供维修建议。

“日日新”融合大模型的问世,是商汤迈出的关键一步,不仅让AI大模型摆脱了“盲人摸象”的局限,成为能够理解世界、服务生活的有力助手,更将为企业级应用带来更多变革。凭借在大模型和多模态领域的技术积累,以及工程化优势,商汤找到了适合自身发展的关键路径,还将引领中国AI行业迈上原生融合发展新台阶,最终实现“换道超车”。

1

结语

所有这些指向一个共同的趋势:AI需要变得越来越“全能”。把不同模态的能力整合起来,AI才能解锁更多的想象空间。

话说回来,现在多模态融合发展到这个程度,其实意味着人工智能正在悄悄地改变方向。它不仅仅是让 AI 变得更厉害,更重要的是,这意味着 AI 正朝着不再只是擅长“做题”、 “刷榜” 这些事儿了。融合了多模态能力之后,AI 才能真的开始有能力去解决现实世界里那些复杂的问题了。这才能真正让 AI 产生价值,而不是停留在概念上。你可以把它理解为,AI 正在努力构建一个更强大的大脑,去理解和模拟我们真实的世界。这样一来,人工智能才能迎来一次真正意义上的大变革,沿着 LLM->多模态->融合模态->世界模型的道路走下去。

点个在看,再走吧阅读原文阅读 1.3万

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
郑重声明:用户在社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500