深圳商报·读创客户端首席记者陈小慧
输入1000字以内的文字提示,选择动画、电影、赛博朋克、写实等各种视频风格,很快就能自动生成一段高质量的AI视频……近日,腾讯混元大模型上线了文生视频能力,这是继腾讯文生文、文生图、3D生成之后的又一创新业务。
今年以来,腾讯多次传来大模型进展。从今年5月腾讯开源混元文生图大模型,到11月的开源MoE模型“混元Large”以及混元3D生成大模型“Hunyuan3D-1.0”,再到12月开源的混元文生视频大模型,腾讯不断拥抱大模型开源,用技术反馈开发者社区。
“文生视频发布之后,业界的反响或是更多反馈和需求也会陆续收到,我们下个月还会对功能做出一些升级。”近日,记者随深圳市重点企业科技创新调研采访团走进腾讯,腾讯设计杰出专家、腾讯混元产品负责人陈妍分享了混元大模型的最新进展。
据悉,腾讯混元大模型上线的文生视频能力,其参数量达130亿,是当前最大的视频开源模型。
混元文生视频发布。(腾讯供图)
技术升级
腾讯混元更“全面”了
当前,大模型技术成为了人工智能领域的热点,去年以来各类大模型“百花齐放”。腾讯混元大模型便是其中之一。2023年9月,腾讯正式发布了混元大模型。
事实上,腾讯混元大模型发布早有“预演”。“腾讯一直都有在做大模型相关的工作,在ChatGPT发布之前已经有一些积累,主要是用在一些比较特定的业务场景里。”陈妍表示,腾讯在大模型技术上不是完全“从0到1”开始的。
在混元大模型发布之前,腾讯就不断在技术路径、人才规划、业务应用规划方面进行迭代,一边做服务内部业务的模型,一边在准备全自研大模型的发布。直至去年9月,腾讯混元大模型正式“出炉”。
“混元大模型发布一年多的时间里,我们也陆陆续续在训练数据量、模型能力等方面做了一些升级。”陈妍告诉记者。
自发布以来,腾讯不断探索用户需求,通过小程序去试验大模型在C端用户的使用效果,并相继上线文生文、文生图片、3D生成、文生视频大模型,让混元大模型越来越“全面”——
今年5月,腾讯发布了基于混元大模型的APP“腾讯元宝”,如同“一盒百宝箱”,集合了AI搜索、AI阅读、AI美照、AI修图等多个AI应用。
5月14日,腾讯宣布最新混元文生图大模型对外开源。11月5日,腾讯混元宣布最新的MoE模型“混元Large”以及混元3D生成大模型“Hunyuan3D-1.0”正式开源,两个模型均属腾讯自研,在架构、算法、数据等方面有独特创新,填补了行业空白。
12月3日,腾讯混元大模型上线文生视频能力,支持中英文双语输入、多种视频尺寸和清晰度,已经在技术社区发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费使用和开发生态插件。
腾讯技术周-腾讯元宝展示。(腾讯供图)
腾讯方面介绍,腾讯混元视频生成大模型可以生成超写实的高质量视频,比如,像冲浪、跳舞这种大动作场景,生成的画面自然合理,不容易变形。
“之前我们说大部分应用都在文生文上面,往后可以看到图片、视频、语音结合文本的一个能力,可以说是全模态的。我们马上可以看到大模型会进入下一个阶段,你可以通过更加自由的方式去跟大模型进行交互。”陈妍说。
应用落地
700个业务场景“装上”大模型
随着人工智能发展进入新阶段,大模型技术如何应用落地成为市场焦点。据了解,混元大模型已经在腾讯内部业务经过验证和广泛使用。其中之一就是“敲代码”。
“腾讯有很多工程师,有非常多的代码场景,他们都是借助AI来帮助编码,目前腾讯内部已经有80%的程序员使用腾讯云AI代码助手实现开发提效。”陈妍告诉记者。目前,腾讯元宝、微信公众号、小程序、微信读书、腾讯广告、腾讯游戏、腾讯会议等近700个内部业务和场景,都应用了混元大模型的能力。
除了腾讯内部业务,陈妍也表示,对外腾讯也会通过一些toC的产品,让用户体会到AI带来的效率和体验提升。比如在学习上,过去都是靠人脑记,有了大模型后可以更好进行信息收集、获取、分析和整理;在虚实结合方面,有了大模型文生图、文生视频能力,即便不去现场拍摄和搭建背景,也能生成一段质量比较高的视频。“大模型基本上学了人类有史以来这么多年的一些知识,如果你懂得怎么样去问它,我觉得对于人类来讲是一个最大的价值。”
不过陈妍也坦言,要满足未来应用需求的话,目前大模型还有很多需要“学习”的地方。比如文生视频最多只能生成5秒,对于用户指令要求还无法实现1:1还原,视频“一致性”问题没有得到解决等等。
“如果我们拍一个广告片和拍一个电影,让大模型按照你设定的故事、分镜、技术参数等等要求,1:1完全还原你的想法,我觉得现在应该还没有一个大模型能够完全做到。”陈妍表示。“这些都是需要我们努力解决和达成的。”
面对市场竞争,陈妍表示:“这个圈子我们每天一睁眼又有新东西,我们还是需要一如既往保持对用户、对市场需求的洞察,能够把技术更好地运用在实际工作、生活和学习场景里。”
腾讯元宝2.0。(腾讯供图)
研发投入
“小按钮”里的“debug精神”
“昨晚1点的时候,Pony(马化腾)还在跟我们建议怎么把元宝的分享体验做得更好。”谈及大模型背后的研发工程师团队,陈妍向采访团分享了腾讯的“debug”精神。陈妍告诉记者,在接受采访当天凌晨,Pony(马化腾)还和研发团队提出了技术修改建议,觉得元宝App里有一个分享的按钮设计得太小,用户不好发现,另外内容分享之后,上面的文字描述可能让用户不那么好理解,还不够吸引人。
“提出来后我就告诉他我们的解决方案是什么,有一些是已经发现并且在改了的。Pony(马化腾)还非常关注我们应用里的文字阅读体验,比如字体大小有没有跟随应用变化去设置,这种很小很小的事情,他都会‘抠’得非常细。”陈妍说。
“这个就是腾讯‘debug精神’。”陈妍表示,“debug精神”就是不断修改技术问题。“作为一个产品负责人或技术负责人,如果没有把问题解决好就睡不着觉,我们会有这样极致追求精神在里面。”
陈妍还表示,腾讯的研发环境非常纯粹。“我一直都是在技术团队里面,这20年让我觉得自己好像一直在学校一样。在腾讯,你会看到工程师穿着非常自由,比如穿洞洞鞋。这也反映我们技术人员更多关注在工作和研发上,另外就是有相对宽松的环境,我们就关注最核心的东西就好了。”
腾讯技术周现场。(腾讯供图)
据了解,今年三季度,腾讯研发开支达到179亿元,同比增长近9%,自2018年至今研发投入达3205亿元。专利布局方面,在人工智能、云原生、区块链、网络安全等领域,腾讯在全球获得专利授权3.3万件,申请总数超过8万件,位列全球第二。