分享好友 资讯首页 频道列表

腾讯混元AI新突破:语音数字人技术,照片加音频秒变个性化唱歌视频

2025-05-29 21:5020740

腾讯混元团队携手腾讯音乐天琴实验室,近期宣布了一项重大技术突破:他们联合推出了开源的语音数字人模型——HunyuanVideo-Avatar。这一创新技术仅需用户的一张人物照片和一段音频,便能自动生成包含生动表情、精准唇形同步以及全身动作的动态视频。

HunyuanVideo-Avatar的核心在于腾讯混元视频大模型与MuseV技术的深度融合。该技术模型凭借其强大的多模态理解能力,能够精确解析用户提供的图像中的环境信息和音频中的情感内容,从而生成与输入高度匹配的视频内容。例如,当用户上传一张女性在海滩弹奏吉他的照片并配以抒情音乐时,系统能够智能识别并生成相应的海边弹唱视频。

在功能方面,HunyuanVideo-Avatar突破了传统数字人技术仅支持头部动作的局限,实现了头肩、半身以及全身三种不同景别模式的全面支持。该技术还覆盖了赛博朋克、2D动漫、中国水墨画等多种艺术风格,并且能够驱动机器人、动物等多种角色,甚至处理双人或多人互动场景。

在腾讯音乐娱乐集团的多个核心产品中,HunyuanVideo-Avatar已经得到了实际应用。在QQ音乐平台上,当用户收听“AI力宏”的歌曲时,AI生成的虚拟形象会在播放界面实时同步演唱动作。酷狗音乐的长音频绘本功能则利用AI虚拟人讲述故事,为用户带来全新的听觉体验。而在全民K歌平台上,用户可以通过上传个人照片,生成专属的个性化唱歌视频。

从技术架构来看,HunyuanVideo-Avatar采用了多模态扩散Transformer(MM-DiT)作为其核心架构。该架构通过角色图像注入模块确保视频中人物的一致性,同时利用音频情感模块从声音和图像中提取情感特征,生成细腻的面部表情和肢体动作。针对多人场景,该技术还配备了面部感知音频适配器,利用人脸掩码技术实现多角色的独立精准驱动。

据官方介绍,HunyuanVideo-Avatar在主体一致性和音画同步准确度方面已经达到了业内领先水平,超越了现有的开源和闭源解决方案。在画面动态性和肢体自然度方面,该技术也与主流闭源方案处于同一技术水准。目前,HunyuanVideo-Avatar的单主体功能已经在腾讯混元官方网站开放体验,用户可以通过特定路径访问并尝试这一创新功能。系统当前支持上传不超过14秒的音频文件,未来还将逐步开放更多高级功能模块。

反对 0
举报 0
收藏 0
打赏 0
评论 0
李想发文揭露行业症结:主流智驾仍在“看2D视频”,AI无法真正理解世界
李想发文揭露行业症结:主流智驾仍在“看2D视频”,AI无法真正理解世界

0评论2026-03-201829

别克至境世家纯电版MPV上市:48.99万元,900V 6C电池
别克至境世家纯电版MPV上市:48.99万元,900V 6C电池

0评论2026-03-202603

硅谷科技圈新动向:AI算力成薪酬新要素 工程师薪酬谈判添新筹码
硅谷科技圈新动向:AI算力成薪酬新要素 工程师薪酬谈判添新筹码

0评论2026-03-201307

Deepoc开发板:为智慧电厂巡检注入智能内核,开启运维新模式
Deepoc开发板:为智慧电厂巡检注入智能内核,开启运维新模式

0评论2026-03-171233

百亿投资加速布局,1400亿市值沪电股份能否在AI浪潮中重夺PCB龙头?
百亿投资加速布局,1400亿市值沪电股份能否在AI浪潮中重夺PCB龙头?

0评论2026-03-132455

理想汽车2025年净利降85.8%仍盈利,2026年AI与出海双轮驱动
理想汽车2025年净利降85.8%仍盈利,2026年AI与出海双轮驱动

0评论2026-03-132720

“龙虾”热潮下的众生相:有人狂热追捧,有人冷静退场,有人执着探索
“龙虾”热潮下的众生相:有人狂热追捧,有人冷静退场,有人执着探索

0评论2026-03-131938

AI Agent浪潮下:中国软件价值重估,基础设施与IDC迎发展新契机
AI Agent浪潮下:中国软件价值重估,基础设施与IDC迎发展新契机

0评论2026-03-122637

AI入厨房新突破!老板电器全球首推AI烹饪眼镜,开启烹饪新视角
AI入厨房新突破!老板电器全球首推AI烹饪眼镜,开启烹饪新视角

0评论2026-03-122406

Anthropic携手黑石等私募股权公司 拟成立合资企业推广AI技术
Anthropic携手黑石等私募股权公司 拟成立合资企业推广AI技术

0评论2026-03-122122