分享好友 资讯首页 频道列表

阿里云栖大会发布7款大模型,通义万相Wan2.5-preview成AI视觉生成新标杆

2025-09-26 23:5418790

在杭州举办的云栖大会上,阿里巴巴集团一口气发布了七款人工智能大模型,其中最受瞩目的当属通义万相Wan2.5-preview。这款全模态视觉生成模型首次实现了音画一体的视频生成功能,标志着阿里在多模态技术领域取得了重大突破。

据阿里云智能集团首席技术官周靖人介绍,通义万相Wan2.5-preview采用了原生多模态架构,将文本、图像、音频等不同模态的数据统一处理。该模型集成了文生视频、图生视频、文生图和图像编辑四大功能模块,能够生成电影级别的视频内容,为用户提供全感官的叙事体验。

在实际测试中,Wan2.5-preview展现出了惊人的文本理解和推理能力。用户只需输入一段文字描述,模型就能自动生成与之匹配的语音和视频画面,且人物口型与语音完美同步。例如,当输入一段关于白人女性拆礼物的详细描述后,模型不仅生成了逼真的光影效果和人物表情,还精准还原了钢琴声和人物对话。

这款模型在视频生成方面实现了多项升级。视频时长从原来的5秒延长至10秒,支持24帧每秒的1080P高清输出,能够生成更完整的剧情故事。在操控性方面,模型对复杂指令的理解能力显著提升,可以完成运镜控制和人物变身等高级图像编辑任务。

Wan2.5-preview的最大亮点在于其原生多模态架构。这是国内首个将声音、图像、文本作为统一语料进行训练的模型,能够在同一框架下完成多种任务。相比传统非原生架构,这种设计避免了信息损耗和误差累积,使模型具备了更强的跨模态推理和生成能力。

在图像生成方面,该模型的美学质感和指令遵循能力都有显著提升。它能够根据复杂的诗歌描述生成意境匹配的图片,在图表生成和文字稳定性方面也表现出色。图像编辑功能支持丰富的指令操作,同时保持视觉元素的一致性。

具体应用案例展示了模型的强大能力。在生成婚礼求婚场景时,模型不仅准确还原了人物动作和光影效果,还完美匹配了婚礼进行曲和新郎的对话。对于极快语速的RAP说唱,模型也能确保人物口型与语音同步,毫无破绽。

音效生成是Wan2.5-preview的另一大特色。在骑士骑马和女子打网球的场景中,模型生成了马蹄声、裁判哨音、网球撞击声等环境音效,大大增强了视频的真实感。对于跳舞场景,模型还能根据描述生成匹配的背景音乐,准确把握嘻哈风格的节奏特点。

目前,用户可以通过阿里云百炼平台调用API,或直接在通义万相官网体验这款模型。阿里提供的官方数据显示,通义万相系列模型已支持十多种视觉创作功能,累计生成了3.9亿张图片和7000万个视频,成为中国调用量最大的视觉生成模型之一。

在开源领域,通义万相也取得了显著成果。自今年2月以来,该系列已连续开源20多款模型,在开源社区和第三方平台的下载量超过3000万次,成为最受欢迎的视频生成模型之一。随着世界模型的面世,阿里在人工智能领域的布局将更加完善。

反对 0
举报 0
收藏 0
打赏 0
评论 0
三星电子与AMD高层会晤,或拓展AI及移动生态合作新领域
三星电子与AMD高层会晤,或拓展AI及移动生态合作新领域

0评论2026-03-202253

汇丰银行计划裁员约2万岗位 人工智能助力重塑中后台人力格局
汇丰银行计划裁员约2万岗位 人工智能助力重塑中后台人力格局

0评论2026-03-20563

OpenAI联合创始人分析:高薪白领或成AI浪潮下“高危群体”?
OpenAI联合创始人分析:高薪白领或成AI浪潮下“高危群体”?

0评论2026-03-171678

世运电路小批量供板:人形机器人“神经系统”进化,产业蓄力待爆发
世运电路小批量供板:人形机器人“神经系统”进化,产业蓄力待爆发

0评论2026-03-172197

DeepSeek V4来了?
DeepSeek V4来了?

0评论2026-03-131267

特斯拉AWE亮相第三代人形机器人 2026年底量产规划产能百万台
特斯拉AWE亮相第三代人形机器人 2026年底量产规划产能百万台

0评论2026-03-121519

拒绝被宰!万师傅上线“豌豆 AI”,家居维保也有了“避坑大杀器”
拒绝被宰!万师傅上线“豌豆 AI”,家居维保也有了“避坑大杀器”

0评论2026-03-111331

中国自主研发 世界最强超高强度碳纤维今日首发
中国自主研发 世界最强超高强度碳纤维今日首发

0评论2026-03-11689

华为Vision智慧屏6正式发布:黑晶屏低反光,AI功能升级,起售价6499元
华为Vision智慧屏6正式发布:黑晶屏低反光,AI功能升级,起售价6499元

0评论2026-03-111100