【编者按】
2023年“百模大战”爆发,2024年大模型应用浪潮来袭。从ChatGPT、文心一言等产品的横空出世,到多模态AIGC、垂直行业模型的百花齐放,过去一年,AI大模型正加速从象牙塔走向落地应用。
从去年的“卷大模型”进化到今年的“卷应用”阶段,产业端已经在探索如何“玩转”AI大模型,在智能终端、工业制造、医疗健康、智慧教育、交通出行、金融服务等领域,越来越多的企业尝试用AI大模型技术来优化业务流程、提升生产效率、创造新价值……
在此背景下,南方都市报联合百度推出《探寻产业智变“模”范生》系列报道,通过解码AI技术赋能产业的标杆案例,探究大模型时代下的生产力变革。
2024年,如果要列举一个被AI“爆改”得最狠得领域,不少人会提到“视频领域”。今年以来,一批用AI加工的宠物视频、影视剧情“重写”视频、熊猫唱歌视频在网络上走红,有人说“《甄嬛传》再也看不完了”,有人说“以后老了就靠宠物这样养老”。
这批AI视频产出的背后,是视频生成大模型从训练到推理的全流程部署越来越成熟。2024年,随着一批视频大模型应用的横空出世,AI也从概念“脱虚向实”。随着用户对视频大模型的调用需求越来越高,企业对算力有效利用的需求也越来越大。从模型训练到推理,企业如何将算力利用最大化?如何保持模型训练的稳定性?
AI爆改影视,视频领域成应用落地桥头堡
“甄嬛在后宫大吃汉堡”“等我老了依靠小猫养老”......今年以来,用AI大模型制作的上述视频走红网络。利用AI,有人将经典电视剧《甄嬛传》变成了“舌尖上的中国”,有人不断推出AI萌系宠物视频快速在社交媒体上成为宠物博主。
同时在影视产业端,一批由AI大模型制作的作品也引起了关注。今年3月,首部AI生成长篇电影《Our T2 Remake》在洛杉矶正式举行线下首映礼,该电影由50位AI领域的艺术家分段创作,全程使用ChatGPT、Midjourney、Pika、Kaiber等人工智能技术完成影片创作。在国内,今年2月,中央电视台与人教社合作制作的国内首部原创文生视频AI系列动画《千秋诗颂》也于CCTV-1综合频道播出。
可以看到,视频领域已经成为AI技术落地的首个桥头堡。不少AI视频出圈的背后,是“中国版Sora”的快速崛起。今年春节期间,Sora的横空出世投下了一枚炸弹,瞬间让卷“文生文”“文生图”的大模型厂商开启了“视频的ChatGPT时代”。不过,Sora一鸣惊人后却迟迟未上线,被外界称为“期货”。
在这期间,多家中国厂商抢先入场,推出了视频大模型产品,包括字节、快手、阿里云、昆仑万维、美图在内的互联网厂商,以及Minimax、智谱、爱诗科技与生数科技等大模型初创等厂商都在快速跟进。
互联网大厂方面,6月21日,快手旗下的可灵推出了图生视频功能,7月24日,可灵宣布基础模型再次升级,在画面质量、运动表现方面均有所提升;8月6日,字节跳动旗下剪映团队研发的AI创作平台“即梦AI”正式上线,目前已拥有文生图、文生视频、图生视频等功能;9月19日,阿里云通义万相发布全新视频生成模型,上线文生视频和图生视频功能。在文生视频功能中,用户输入任意文字提示词,即可免费生成一段高清视频。
大模型初创企业方面,Minimax、智谱、爱诗科技与生数科技均在视频大模型方面有所布局。比如早在今年1月,爱诗科技就正式发布AI视频生成产品PixVerse,能够免费生成4K高清视频。10月29日,PixVerse已升级到第三个版本,提供创意模板、口型匹配、故事和风格转换等多模态生成能力。
AI落地到应用,对算力高效利用成企业迫切需求
走入2024年,随着AI从概念落地为应用,算力的紧缺情况也进一步凸显。百度智能云解决方案架构师孙颖欣告诉南都记者,他接触的客户有做大语言模型的,也有做多模态、做AIGC相关的,目前大家形成的共识是,训练大模型这件事非常烧钱,对算力资源、人力的有效利用成了大模型企业普遍的迫切需求。
以做视频生成的企业为例,这些企业从最初仅生成文字,逐渐推出生成图片或视频的功能,这时他们面临的算力压力也越来越大。这意味着企业在训练底层大模型时,更需要一个能把资源充分利用、性价比高的平台。
生数科技是对算力和各方面资源实现较好调配的企业之一。今年4月,生数科技作为国内最早布局多模态通用大模型的团队之一,联合清华大学发布了国内首款全面对标OpenAI Sora的视频大模型Vidu。自4月底首次亮相以来,Vidu凭借媲美Sora的视频生成能力,迅速在国内外引起广泛关注。后续生数科技的视频大模型Vidu在7月正式上线时,更是在影响用户体验的推理速度层面,Vidu实现了业界最快的实测推理速度,生成一段4秒片段只需30秒。
南都记者了解到,生数科技Vidu在训练时采用的正是百度百舸·AI异构计算平台。孙颖欣分享称,在生数科技成立两个月后,百度就和生数科技进行业务上的合作。从训练基础模型到后续训练多模态大模型,百度百舸高性能算力集群的任务分发、队列调度和训练加速等功能,提升了训练效率,加速模型迭代。
据悉,百舸是百度智能云基于多年在AI方面的沉淀以GPU为核心搭建的异构计算平台。在提升模型训练效率方面,百舸可以把不同地点、不同规模、不同集群的算力统一管理起来,通过芯片性能优化、自动芯片选型、潮汐混部这些经验和技术,大幅提升智能算力效能,万卡集群上的模型有效训练时长占比超过99%,线性加速比和带宽有效性均超过了95%。
后续到生数科技推出视频生成模型时,百度根据相关的算力、存储需求,做了对应的优化。
比如,当生数科技投入的算力资源增长到一定规模时,要怎样去保持高效训练和稳定性?据悉,在模型训练稳定性方面,百舸提供了丰富的运维和可观测工具以及容错保障能力,提升了大规模集群长期运行的稳定性,降低因为故障导致训推任务异常终止的概率,减少业务损失。目前,针对生数科技方面,百舸平台达成的整体效果是资源带宽有效性在95%以上,有效训练时长超过99%。
在算力技术的持续创新与积累上,百舸平台展现出了强大的专利储备实力。百度智能云围绕百舸平台的加速技术、训练推理、超大规模集群和多芯混训等领域,已经申请并获得了多项核心专利。这些专利覆盖了资源层、组件层、大模型加速层和平台工具层的多芯适配,全方位保障了百舸平台在算力领域的领先地位。高质量、多维度的专利布局,不仅巩固了百舸平台在算力管理与多芯适配方面的技术优势,也为百度智能云为客户提供高效、可靠的AI服务奠定了坚实的基础。
从训练到推理,百度布局大模型发展全链路
今年9月,OpenAI 推出首款具备“推理”能力的模型o1,OpenAI o1系列模型被业界认为是AGI(通用人工智能)的一大进程。面壁智能CEO李大海认为,OpenAI o1模型面世后,大模型的算力重心可能逐渐从训练阶段转向推理阶段,大模型的研究中心也可能逐渐由自监督预训练范式转向强化学习范式和对齐阶段。月之暗面Kimi创始人杨植麟也提到,OpenAI o1会让训练和推理算力占比发生很大的变化,企业在推理上投入的算力提升也会变得更快。
在孙颖欣看来,资源向推理层面倾斜的情况在更早前就出现了。孙颖欣告诉南都记者,事实上从今年春节开始,就已经有不少企业开始做推理方面的资源布局。“前期大家都在优化模型、加深模型来让自己的模型效果更好,后面就是要落地做变现了,那自然是越来越多地要往推理业务方向去走。”
洞察到这一点,百度除了布局大模型的训练、帮助大模型在训练过程中节省算力成本以外,今年4月也针对性地推出了大模型训推任务加速套件 AIAK-LLM,来帮助企业提高效率、控制成本。
孙颖欣透露,百度做到优先布局、细致服务的原因在于,不少企业遇到的问题,百度在做文心一言模型的过程中已经遇到了类似的问题,并逐渐梳理成可迁移使用的工具链。“以大模型训练时常见的‘坏卡’问题为例,我们在训练文心模型的时候也遇见过。在大模型训练时,为了把资源运用到极致,部署时我们常常需要把资源”吃满运行“,但‘吃满运行’就相当于让一个人24小时干7天来满负荷运转,这不可避免会出现硬件故障问题。这时企业面临的问题有两重,一是模型训练中断了没有通知,二是模型训练中断后无从下手。”
针对这一难题,百度将此前训练文心大模型时沉淀的监控系统内置在了百舸平台中。在提升模型训练稳定性方面,百舸提供了丰富的运维和可观测工具以及容错保障能力,提升了大规模集群长期运行的稳定性,降低因为故障导致训推任务异常终止的概率,减少业务损失。
目前,为帮助企业摆脱单一芯片依赖、实现更优成本,百舸平台还支持混合多芯使用方案,兼容昆仑芯、昇腾、海光DCU、英伟达、英特尔等国内外主流AI芯片,支持同一智算集群中混合使用不同厂商芯片。在多芯混合训练任务中,百舸能保证百卡规模性能损失不超过3%,万卡规模性能损失不超过5%。
出品:南都政商数据新闻部
统筹:甄芹田爱丽马宁宁