【大河财立方记者陈薇】1月15日,科大讯飞发布了当前全国产算力平台上唯一的深度推理大模型——讯飞星火X1。讯飞星火X1在解答高考题、竞赛题时,不仅准确给出了这些题目的答案,还对解题思路和步骤进行了详细拆解。
与通用大模型相比,其解题过程更接近人类的“慢思考”方式。该模型目前中文数学能力国内第一,将率先应用于教育、医疗等场景。
不仅给出答案,
更有思考过程
一直以来,讯飞星火坚持走全国产化路线。尽管在全国产算力平台上训练深度推理模型遭遇诸多挑战,但科大讯飞携手华为,成功攻克了训练推理强交互、高吞吐推理优化以及国产算子优化等一系列难题,训练出具备深度思考和推理能力的大模型。
发布会上,科大讯飞研究院的研究员们依次展示了讯飞星火X1解答高考题、AIME竞赛题以及高中奥赛题的表现。
讯飞星火X1不仅准确给出了这些题目的答案,还对解题思路和步骤进行了详细拆解。大模型可以将复杂问题分步拆解简化,还可以进行自我探索和反思验证,并基于答案正确与否的优质反馈信息进行强化训练。与通用大模型相比,其解题过程更接近人类的“慢思考”方式。
讯飞星火X1在近期参加的小初高(含竞赛)、大学(含竞赛)、AIME、MATH 500等多项“考试”中成绩十分亮眼,用更少的算力,实现了业界一流的效果,多项指标国内第一。
慢思考的能力,让讯飞星火X1率先在教育场景中实现了应用落地。
2024年,科大讯飞联合中国教育科学研究院发布了基于“问题链”的高中数学智能教师助手。体验过的老师们表示,X1在一题多解、教学知识关联、拓展学生高阶思维等方面表现出色。随着相关技术的深度融入,科大讯飞AI学习机学习推荐和诊断将变得更加精准,解题思路和知识链条将更加清晰。
在医疗领域,讯飞星火X1可使专科辅助诊断和复杂病历内涵质控的准确率均达90%。今年上半年,科大讯飞还将发布基于讯飞星火X1的医疗大模型升级版,确保其深层次诊断推理效果和质控能力业界领先。
消除大模型幻觉助力大模型更好落地行业
同时,讯飞星火4.0 Turbo底座能力也对标OpenAI最新版的GPT-4o进行了升级。此次升级主要是围绕行业、企业需求,在数学能力、行业知识、图文识别、长文本等能力上进行提升。
数学能力一直是讯飞星火的强项,此次基于讯飞星火X1的高质量合成数据,讯飞星火4.0 Turbo可以在数学教学、金融分析和科研推演等工作中更好地帮助用户。
面对各行各业复杂图文识别需求,比如医疗的体检报告、法院的文书、企业合同等,不仅有文字还有复杂长表格、杂乱板式、印章手写合同等,讯飞星火4.0 Turbo图文识别能力升级,大幅提升高价值数据的获取能力。
在企业知识问答这类严谨的应用场景中,用户对大模型幻觉的容忍度几乎为零。此次讯飞星火推出了基于智能体的全新长文本框架,并行业首发了句子级溯源功能,显著缓解了问答搜索服务中应用落地难题。
截至2024年底,讯飞星火在大模型能源、金融、汽车、运营商等行业,与客户共同打磨了近百个智能体应用。讯飞星火4.0 Turbo的行业能力全面提升,金融、油气、能源、电力、钢铁、航司等领域综合能力提升全部超过10%,可以说是最懂行业的大模型。