1月15日,MiniMax发布并开源了MiniMax-01全新系列模型,其中包含两个模型,基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。MiniMax 称,MiniMax-01系列模型首次大规模实现线性注意力机制,模型综合性能比肩海外顶尖模型,同时能够高效处理全球最长400万token的上下文,是GPT-4o的32倍。
目前,MiniMax-01系列开源模型已应用于MiniMax旗下产品海螺AI并在全球上线。
“2025年会是Agent高速发展的一年,不管是单Agent的系统需要持续的记忆,还是多Agent的系统中Agent之间大量的相互通信,都需要越来越长的上下文。在这个模型中,公司走出了第一步,并希望使用这个架构持续建立复杂Agent所需的基础能力。”MiniMax称。
据悉,MiniMax-01系列模型首次将线性注意力机制扩展到商用模型的级别。受益于此次架构创新,该系列模型在处理长输入的时候具有非常高的效率,接近线性复杂度。从Scaling Law、与MoE的结合、结构设计、训练优化和推理优化等层面综合考虑,MiniMax选择模型参数量为4560亿,其中每次激活459亿,能够高效处理高达400万token的上下文,将有效替代Transformer传统架构并开启超长文本输入时代。
在价格上,MiniMax称拥有极致性价比,标准定价是输入token 1元/百万token,输出token 8元/百万token。
MiniMax介绍,公司开源了两个模型的完整权重,这一系列模型的后续更新,包括代码和多模态相关的后续强化,公司会第一时间上传。“选择开源,一是因为公司认为这有可能启发更多长上下文的研究和应用,从而更快促进Agent时代的到来;二是开源也能促使公司努力做更多创新,更高质量地开展后续的模型研发工作。”