国产大模型能解高中数学竞赛题！上海AI实验室邀公众试用体验_财经评论(cjpl)股吧

股吧首页 > 财经评论吧 > 正文

最近访问：

财经评论吧

返回财经评论吧>>

- 重要股东股权质押数据全览

东方财富资讯君

发表于 2024-11-25 21:38:30 股吧网页版

国产大模型能解高中数学竞赛题！上海AI实验室邀公众试用体验

来源：上观新闻

　　今天，上海人工智能实验室向社会用户开放了实验室开发的“书生·浦语”大模型，并在这个大模型界面上发布了强推理模型InternThinker（书生思想者）。InternThinker模型具有长思维能力，并能在推理过程中进行反思和纠正，从而在数学、代码、推理谜题等多种复杂推理任务上取得更优结果。

　　据介绍，上海人工智能实验室一直在开展强推理模型的原创研究，探索出一条高效构建高质量思维链的路径。在训练数据侧，实验室在国内率先开发出大规模合成数据技术；在任务场景侧，InternThinker模型在数学、代码、推理谜题等多种场景中，都能展现出较强的推理能力，并具备一定的任务泛化性。

InternThinker研发团队针对专业任务构建了大规模的沙盒环境。

　　为高效提升模型的推理能力，实验室研发团队采用了更接近人类学习方式的路径。人在学习解决复杂推理任务时，并非从海量的样本中学习单点知识，而是学习一种思维模式——在解决问题的过程中，通过回忆相关知识点，对正确的解题过程进行理解、记忆，对错误解题等过程进行反思和修正。这种人类学习的能力被称为“元认知”能力。“元认知”理论认为，通过显式地引导和感知人在解决问题过程中的思维模式，可提升复杂任务的学习和解决效果。

　　受这一理论的启发，研发团队设计了一系列“元动作”来引导模型解决问题的过程，如对问题的理解、知识回忆、规划、执行、反思、总结等。InternThinker在面对复杂任务时，会显式且动态地选择“元动作”，再进一步展开相关动作的具体思维过程。通过这种设计，研发团队利用部分训练任务，可强化模型对关键“元动作”组合的使用，显著提升模型学习效率。

　　在未经“元动作”引导和学习的情况下，模型在解决问题时多采用链式推理策略，难以解决更加复杂的任务并进行自我纠错。经过“元动作”的引导和学习后，模型能够在解决复杂任务时自发使用“回忆知识—解答”“执行—反思”等策略组合。

　　面对丰富多样的推理任务，如何准确地获得过程和结果反馈尤为关键。为此，研究人员针对专业任务构建了大规模的沙盒环境（为运行中的程序提供的隔离环境），为可形式化验证的推理任务提供反馈信号。通过自动化专家模型、人机协同策略生成等方法，他们构建了50种以上不同逻辑思维方式的推理任务思考过程，将执行专业任务的能力融合到InternThinker中。

　　这个强推理模型解决复杂问题的能力如何？上海人工智能实验室展示了多个案例。

　　“袋子A中装有2张10元纸币和3张1元纸币，袋子B中装有4张5元纸币和3张1元纸币。现随机从两个袋子中各取出两张纸币，则A中剩下的纸币面值之和大于B中剩下的纸币面值之和的概率是多少？”面对这道“烧脑”的概率问题，采用链式思维策略的推理模型给出了4/7这一错误答案，而InternThinker采用“元动作”引导的多样策略，经过问题理解、回忆知识、思路规划、执行、反思检查等多个推理步骤，得出了9/35这一正确答案。

InternThinker与其他推理模型解答概率问题的过程比较

　　在解答今年全国高中生数学竞赛联赛题目、Leetcode（面向全球信息技术人才的技能成长平台）本月发布的代码编写赛题、填字游戏等“烧脑”题目时，InternThinker也有很好表现。

InternThinker解答今年9月全国高中生数学竞赛联赛一道题目的过程

（文章来源：上观新闻） [点击查看原文]

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

郑重声明：用户在社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》