• 最近访问:
发表于 2024-11-25 21:38:30 股吧网页版
国产大模型能解高中数学竞赛题!上海AI实验室邀公众试用体验
来源:上观新闻

  今天,上海人工智能实验室向社会用户开放了实验室开发的“书生·浦语”大模型,并在这个大模型界面上发布了强推理模型InternThinker(书生思想者)。InternThinker模型具有长思维能力,并能在推理过程中进行反思和纠正,从而在数学、代码、推理谜题等多种复杂推理任务上取得更优结果。

  据介绍,上海人工智能实验室一直在开展强推理模型的原创研究,探索出一条高效构建高质量思维链的路径。在训练数据侧,实验室在国内率先开发出大规模合成数据技术;在任务场景侧,InternThinker模型在数学、代码、推理谜题等多种场景中,都能展现出较强的推理能力,并具备一定的任务泛化性。

InternThinker研发团队针对专业任务构建了大规模的沙盒环境。

  为高效提升模型的推理能力,实验室研发团队采用了更接近人类学习方式的路径。人在学习解决复杂推理任务时,并非从海量的样本中学习单点知识,而是学习一种思维模式——在解决问题的过程中,通过回忆相关知识点,对正确的解题过程进行理解、记忆,对错误解题等过程进行反思和修正。这种人类学习的能力被称为“元认知”能力。“元认知”理论认为,通过显式地引导和感知人在解决问题过程中的思维模式,可提升复杂任务的学习和解决效果。

  受这一理论的启发,研发团队设计了一系列“元动作”来引导模型解决问题的过程,如对问题的理解、知识回忆、规划、执行、反思、总结等。InternThinker在面对复杂任务时,会显式且动态地选择“元动作”,再进一步展开相关动作的具体思维过程。通过这种设计,研发团队利用部分训练任务,可强化模型对关键“元动作”组合的使用,显著提升模型学习效率。

  在未经“元动作”引导和学习的情况下,模型在解决问题时多采用链式推理策略,难以解决更加复杂的任务并进行自我纠错。经过“元动作”的引导和学习后,模型能够在解决复杂任务时自发使用“回忆知识—解答”“执行—反思”等策略组合。

  面对丰富多样的推理任务,如何准确地获得过程和结果反馈尤为关键。为此,研究人员针对专业任务构建了大规模的沙盒环境(为运行中的程序提供的隔离环境),为可形式化验证的推理任务提供反馈信号。通过自动化专家模型、人机协同策略生成等方法,他们构建了50种以上不同逻辑思维方式的推理任务思考过程,将执行专业任务的能力融合到InternThinker中。

  这个强推理模型解决复杂问题的能力如何?上海人工智能实验室展示了多个案例。

  “袋子A中装有2张10元纸币和3张1元纸币,袋子B中装有4张5元纸币和3张1元纸币。现随机从两个袋子中各取出两张纸币,则A中剩下的纸币面值之和大于B中剩下的纸币面值之和的概率是多少?”面对这道“烧脑”的概率问题,采用链式思维策略的推理模型给出了4/7这一错误答案,而InternThinker采用“元动作”引导的多样策略,经过问题理解、回忆知识、思路规划、执行、反思检查等多个推理步骤,得出了9/35这一正确答案。

InternThinker与其他推理模型解答概率问题的过程比较

  在解答今年全国高中生数学竞赛联赛题目、Leetcode(面向全球信息技术人才的技能成长平台)本月发布的代码编写赛题、填字游戏等“烧脑”题目时,InternThinker也有很好表现。

InternThinker解答今年9月全国高中生数学竞赛联赛一道题目的过程

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
郑重声明:用户在社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500