_商汤-W(hk00020)股吧_东方财富网股吧

股吧首页 > 商汤-W吧 > 正文

最近访问：

商汤-W吧

返回商汤-W吧>>

- 重要股东股权质押数据全览

拥抱商神

发表于 2025-01-14 13:30:05 东方财富Android版发布于四川

◆

三个月五倍利

发表于 2025-01-14 12:08:41 发布于山西

[商汤-W吧] 告别AI“跷跷板”，商汤“换道超车”原创周一笑硅星人Pro2025年01月14日

$商汤-W(HK|00020)$

告别AI“跷跷板”，商汤“换道超车”

原创周一笑硅星人Pro 2025年01月14日 10:49 北京 62人

作者｜周一笑你是否遇到过这样的场景：面对一份包含大量图表、文字信息的会议纪要，你希望AI能帮助你快速提炼。然而，手中的AI工具却只抓取了文字部分，对关键的图表视而不见，你不得不再次手动梳理，效率还不如自己从头来做。

好的用户体验应该是这样的：

向下滑动查看完整图片

这就是最新的商汤“日日新”融合大模型展现出来的能力。它能像我们人类一样，眼观六路、耳听八方，将现实世界中的文字、图像、声音等多种信息融合起来思考，在融会贯通后，形成对世界的认知与理解，高效解决实际问题。

根据权威评测，商汤“日日新”融合大模型在AI在理解和处理复杂信息上，已经实现了行业的跨越式突破。在OpenCompass多模态评测中，“日日新”超过了GPT-4o、Claude 3.5 Sonnet等获得第一。

在另一个权威大模型测评机构 SuperCLUE 最新发布的《中文大模型基准测评2024年度报告》，商汤“日日新”融合大模型也以总分 68.3 的优异成绩，与DeepSeek V3并列国内榜首。

同一个模型、同时拿下了多模态测评和通用能力测评的双料冠军，这就比较厉害了。也就是说“日日新”融合大模型，实现了单一模型，同时在图文场景、纯语言、推理等场景能达到业内最优秀的水平。

这也意味着它解决了多模态AI领域长期存在的一个“老大难”问题——跷跷板效应。啥意思呢？以前的多模态模型，受限于技术局限，往往只能在一个方向维度上保持高水平，熊掌和鱼翅，很难兼得。

因此目前，国内其他的语言模型和多模态模型仍然是相互独立的，难以真正实现不同模态之间的无缝融合。此次，商汤在原生融合模态训练方面取得的实质性突破，对于引领和推动国内大模型，从语言和多模态分立走向一统，将起到关键作用。

根据商汤科技联合创始人、人工智能基础设施及大模型首席科学家林达华介绍，为解决这一问题，商汤攻克了两项阻碍多模态模型研究的关键技术点：融合模态数据合成，和融合任务增强训练。通过高质量、多样化的数据积累，并创新性地进行数据再生产和合成，以及通过构建大量的跨模态桥梁等方法，从根本上解决了数据和融合等问题。

这也正是包括OpenAI、Google在内的全球顶尖研究机构都在努力攻克的方向。例如，OpenAI推出的GPT-4o，以及Google的Gemini系列，都在朝着单一模型体系融合多种模态处理能力的方向发展，力求打破AI的“感知盲区”。

1

实测案例，解锁更多应用场景

“日日新”融合大模型目前已经可以通过“商量”网页版进行体验，硅星人也在得知消息的第一时间对它进行了一番考验。

向下滑动查看完整图片识别并解答手写数学题在教育场景中，学生常常通过手写方式记录和解答数学题。对于潦草的手写体，传统的AI模型可能难以准确识别。“日日新”融合大模型借助多模态理解能力，不但能够准确识别，还能给出详尽的解题推导过程及正确答案。看懂“抽象”玩偶

AI能懂年轻人钟爱的抽象文化吗？它不仅能认出这是个玩偶，还能分析出它的颜色、材质，甚至连设计背后的 “小心思” 和文化内涵都能 get 到位。

能看懂宏观经济图表，还能进行推理分析

在真实场景中，我们常常需要解读复杂图表。“日日新”不仅能看懂这些复杂的图表，还会通过逻辑推理，将图表和内容之间的关系梳理清楚，从而提供具有实际参考价值的分析支持，无论是商业决策还是个人规划都更加从容。

1

多模融合，换道超车

随着融合模态有效提升AI大模型性能，商汤“日日新”融合大模态模型将广泛应用于诸多场景，包括智能硬件、在线教育、具身智能机器人等，实现跨模态交互，提升交互体验。

除此之外，采用原生融合方法训练的多模态模型，未来还有更多的潜力等待挖掘。比如落地在许多垂直行业和企业级场景，帮助企业实现“降本增效”，为社会带来效能。

想象一下，在一个智能化的产业园区里，摄像头捕捉到工人在违规操作，如果仅仅依靠传统的图像识别技术，可能只能发出一个冰冷的警报。但有了融合大模型，它可以结合现场的视频画面、操作手册的文字说明、以及历史违规记录等多模态信息，判断工人是否真的存在安全风险，并给出更精准的指导和建议，甚至可以主动联系安全负责人。

再比如，在电商平台的客服场景中，用户发来一张商品破损的照片，并用文字描述了问题。传统的客服系统可能需要人工介入才能判断责任归属和处理方案。但融合大模型可以同时理解图片和文字信息，快速判断破损程度和原因，并自动生成退换货申请，大大提升了客户服务的效率和用户体验。

再比如，在医疗领域，医生可以通过上传病人的影像资料和病历报告，综合分析，辅助诊断，提供更精准的治疗方案。在金融领域，分析师可以快速解读包含图表和文字的财务报告，更高效地进行投资决策。甚至在工业生产中，工程师可以通过上传设备的照片和维修记录，诊断故障原因，提供维修建议。

“日日新”融合大模型的问世，是商汤迈出的关键一步，不仅让AI大模型摆脱了“盲人摸象”的局限，成为能够理解世界、服务生活的有力助手，更将为企业级应用带来更多变革。凭借在大模型和多模态领域的技术积累，以及工程化优势，商汤找到了适合自身发展的关键路径，还将引领中国AI行业迈上原生融合发展新台阶，最终实现“换道超车”。

1

结语

所有这些指向一个共同的趋势：AI需要变得越来越“全能”。把不同模态的能力整合起来，AI才能解锁更多的想象空间。

话说回来，现在多模态融合发展到这个程度，其实意味着人工智能正在悄悄地改变方向。它不仅仅是让 AI 变得更厉害，更重要的是，这意味着 AI 正朝着不再只是擅长“做题”、 “刷榜” 这些事儿了。融合了多模态能力之后，AI 才能真的开始有能力去解决现实世界里那些复杂的问题了。这才能真正让 AI 产生价值，而不是停留在概念上。你可以把它理解为，AI 正在努力构建一个更强大的大脑，去理解和模拟我们真实的世界。这样一来，人工智能才能迎来一次真正意义上的大变革，沿着 LLM->多模态->融合模态->世界模型的道路走下去。

点个“在看”，再走吧阅读原文阅读 1.3万

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

郑重声明：用户在社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》