上线文生视频功能腾讯大模型再追赶_腾讯控股(hk00700)股吧

股吧首页 > 腾讯控股吧 > 正文

最近访问：

腾讯控股吧

返回腾讯控股吧>>

- 重要股东股权质押数据全览

腾讯控股资讯

发表于 2024-12-04 01:12:50 股吧网页版

上线文生视频功能腾讯大模型再追赶

来源：北京商报作者：魏蔚

　　11月底就被“剧透”的腾讯混元大模型文生视频功能，在12月3日正式上线。目前该模型已上线腾讯元宝App，用户可在AI应用中的“AI视频”板块申请试用，企业客户通过腾讯云提供服务接入，目前API（应用程序编程接口）同步开放内测申请。自OpenAI发布Sora，国内外的视频生成式大模型轮番抢镜，在国内快手和字节跳动正面交锋，阿里云、MiniMax、美图等也有备而来，和同行相比，腾讯混元不算快节奏。

　　在提示框输入一段描述，就可以生成一段视频，从使用流程看，腾讯混元大模型的文生视频功能和类似产品无异。在这部分，混元给用户提供了转场视频、多动作视频、超写实视频三种灵感提示。

　　北京商报记者体验发现，用户可以选择写实、动画、电影、黑白、赛博朋克五种视频风格及五种比例。高级指令部分的选择更多，包括景别、光线、镜头运动等，其中景别包括特写、近景等五种，镜头运动包括固定镜头、手持摄影、拉近镜头等14种。

　　根据腾讯提供的评测报告，腾讯混元视频生成模型与国内两个同类模型的持续时间都是5秒，在文本对齐方面的得分分别是61.8%、62.6%、60.1%，运动质量方面分别是66.5%、61.7%、62.9%，视觉质量方面分别是95.7%、95.6%、97.7%。和GENN-3 alpha（Web）相比，腾讯混元视频生成模型的持续时间少一秒，文本对齐高14.1个百分点，运动质量高11.8个百分点，视觉质量持平。

　　腾讯混元多模态生成技术负责人凯撒介绍，混元基于跟Sora类似的DiT架构，在架构设计上进行了升级。混元视频生成模型适配新一代文本编码器提升语义遵循，其语义跟随能力可以更好地应对多个主体描绘，实现更细致的指令和画面呈现；采用统一的全注意力机制，使每帧视频的衔接更流畅，实现主体一致的多视角镜头切换；通过图像视频混合VAE（3D变分编码器），让模型在细节表现有明显提升，特别是小人脸、高速镜头等场景。

　　当天，腾讯宣布开源该视频生成大模型，该模型已在Hugging Face平台及Github上发布，包含模型权重、推理代码、模型算法等完整模型，企业与个人开发者可免费使用和开发生态插件。目前，腾讯混元已开源旗下文生文、文生图和3D生成大模型。

　　对于为何选在此时上线文生视频功能，凯撒的回答是：“内部一直在进行视频生成能力的打磨，现在上线水到渠成。”业内人士更关心的是，该功能和同行相差的几个月时间差对腾讯的压力，“视频生成的成熟度还没有到外界想象得那么高，现阶段还是要自己做技术打磨”，凯撒说。

　　在和北京商报记者交流时，比达分析师李锦清表示，“文生视频的实现难度更高，但商业空间更大，短期内竞争门槛不会马上建立，行业和企业有共性或特性的问题要解决，比如数据就是个槛”。

　　根据GIR(GlobalInfo Research)调研，2023年全球文生视频大模型收入大约720万美元，预计2030年达到22.19亿美元，2024－2030年期间，年复合增长率CAGR有望达到56.6%。

（文章来源：北京商报） [点击查看原文]

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

郑重声明：用户在社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》