视频生成模型“一键创作”高清动画,AI编程新范式逐步改变传统的编程模式,人形机器人徒手开瓶、制作咖啡……在9月19日开幕的2024云栖大会上,一批新产品和解决方案集中亮相,展现了人工智能正加快前沿技术创新迭代,面向产业的大模型正加速落地。
在对话框中输入一句话或添加一张照片,点击“生成视频”按钮,不到一分钟,一条8秒左右的短视频生成。大会展馆内,通义万相、Vidu、智谱等多个视频大模型产品吸引与会者体验。
今年初,文生视频大模型Sora在全球人工智能业内外引发广泛关注。近期,多个中国科技企业自主研发的视频生成产品加速上线和升级。“我们通过集成多项创新技术,有效解决画面表现力和大幅度运动等视频生成技术难题,可应用于影视创作、动画设计等领域。”通义万相现场工作人员一边介绍,一边在对话框输入“穿着滑冰鞋的小兔子在冰面上灵活移动的可爱场景”,随即一段高清、逼真的动画视频呈现在眼前。
与会人士认为,当前大模型已经具备文本、语音、视觉的多模态能力,能够开始完成复杂指令,技术快速迭代使其可用性大幅提升。
在此趋势下,面向人形机器人、汽车、制造、交通等多个领域,多项基于大模型最新应用加速落地应用。
大模型加持下,人形机器人拥有了聪慧的“大脑”、敏捷的“小脑”、灵活的“肢体”。展区内,星动纪元自研的人形机器人小星MAX全身拥有54个自由度,可以猜拳、按摩、稳定行走。“我们研究了人形机器人的操作大模型,基于语言和视觉信号的输入,通过操作大模型让人形机器人直接输出动作,这使得人形机器人有了举一反三的能力,可以只需要少量数据就能学会相关技能。”清华大学交叉信息研究院助理教授、星动纪元创始人陈建宇说。
在出行领域,“端到端”大模型是当下备受关注的自动驾驶解决方案。小鹏汽车董事长何小鹏介绍,过去2年,小鹏汽车与阿里云共建的AI算力规模提升超四倍,有了大模型的加持,自动驾驶试验车转向、变道像人开车一样流畅。
“之前的自动驾驶技术,是靠人来写算法规则,几十万行代码,仍然无法穷尽所有的驾驶场景。采用‘端到端’大模型技术训练后,AI模型可直接学习海量人类驾驶视觉数据。”阿里巴巴集团CEO吴泳铭说。
数据显示,我国完成备案并上线、能为公众提供服务的生成式人工智能服务大模型已达190多个,注册用户超过6亿。与会人士表示,下一步,行业大模型研发将带动企业级市场更加专业化细分化。应结合技术的特点和各个应用方向,提前做好前后端贯穿的机制设计,规划好技术路线,同时,在安全合规发展的前提下,持续推动产品的更快速迭代,创造更优的用户体验。