分享好友 资讯首页 频道列表

阿里云栖大会发布7款大模型,通义万相Wan2.5-preview成AI视觉生成新标杆

2025-09-26 23:5415940

在杭州举办的云栖大会上,阿里巴巴集团一口气发布了七款人工智能大模型,其中最受瞩目的当属通义万相Wan2.5-preview。这款全模态视觉生成模型首次实现了音画一体的视频生成功能,标志着阿里在多模态技术领域取得了重大突破。

据阿里云智能集团首席技术官周靖人介绍,通义万相Wan2.5-preview采用了原生多模态架构,将文本、图像、音频等不同模态的数据统一处理。该模型集成了文生视频、图生视频、文生图和图像编辑四大功能模块,能够生成电影级别的视频内容,为用户提供全感官的叙事体验。

在实际测试中,Wan2.5-preview展现出了惊人的文本理解和推理能力。用户只需输入一段文字描述,模型就能自动生成与之匹配的语音和视频画面,且人物口型与语音完美同步。例如,当输入一段关于白人女性拆礼物的详细描述后,模型不仅生成了逼真的光影效果和人物表情,还精准还原了钢琴声和人物对话。

这款模型在视频生成方面实现了多项升级。视频时长从原来的5秒延长至10秒,支持24帧每秒的1080P高清输出,能够生成更完整的剧情故事。在操控性方面,模型对复杂指令的理解能力显著提升,可以完成运镜控制和人物变身等高级图像编辑任务。

Wan2.5-preview的最大亮点在于其原生多模态架构。这是国内首个将声音、图像、文本作为统一语料进行训练的模型,能够在同一框架下完成多种任务。相比传统非原生架构,这种设计避免了信息损耗和误差累积,使模型具备了更强的跨模态推理和生成能力。

在图像生成方面,该模型的美学质感和指令遵循能力都有显著提升。它能够根据复杂的诗歌描述生成意境匹配的图片,在图表生成和文字稳定性方面也表现出色。图像编辑功能支持丰富的指令操作,同时保持视觉元素的一致性。

具体应用案例展示了模型的强大能力。在生成婚礼求婚场景时,模型不仅准确还原了人物动作和光影效果,还完美匹配了婚礼进行曲和新郎的对话。对于极快语速的RAP说唱,模型也能确保人物口型与语音同步,毫无破绽。

音效生成是Wan2.5-preview的另一大特色。在骑士骑马和女子打网球的场景中,模型生成了马蹄声、裁判哨音、网球撞击声等环境音效,大大增强了视频的真实感。对于跳舞场景,模型还能根据描述生成匹配的背景音乐,准确把握嘻哈风格的节奏特点。

目前,用户可以通过阿里云百炼平台调用API,或直接在通义万相官网体验这款模型。阿里提供的官方数据显示,通义万相系列模型已支持十多种视觉创作功能,累计生成了3.9亿张图片和7000万个视频,成为中国调用量最大的视觉生成模型之一。

在开源领域,通义万相也取得了显著成果。自今年2月以来,该系列已连续开源20多款模型,在开源社区和第三方平台的下载量超过3000万次,成为最受欢迎的视频生成模型之一。随着世界模型的面世,阿里在人工智能领域的布局将更加完善。

反对 0
举报 0
收藏 0
打赏 0
评论 0
汽车之家携三大AI成果首登云栖大会 赋能“人工智能+汽车”生态建设
汽车之家携三大AI成果首登云栖大会 赋能“人工智能+汽车”生态建设

0评论2025-09-301560

京东全球科技探索者大会发布三大AI新品,从购物到硬件开启“人机交互”新体验
京东全球科技探索者大会发布三大AI新品,从购物到硬件开启“人机交互”新体验

0评论2025-09-261721

自贡新成立数投机器人产业投资公司 注册资本1.6亿 涉人工智能开发
自贡新成立数投机器人产业投资公司 注册资本1.6亿 涉人工智能开发

0评论2025-09-26613

从AGI迈向ASI:阿里云以技术为笔,绘就智能时代宏伟蓝图
从AGI迈向ASI:阿里云以技术为笔,绘就智能时代宏伟蓝图

0评论2025-09-261029

京东许冉:未来三年加码AI投入,携手各产业打造万亿级人工智能生态圈
京东许冉:未来三年加码AI投入,携手各产业打造万亿级人工智能生态圈

0评论2025-09-261498

2025通信展聚焦:我国信息通信业加速现代化,人工智能大模型超1500个
2025通信展聚焦:我国信息通信业加速现代化,人工智能大模型超1500个

0评论2025-09-261226

代理人工智能将在未来五年内主导 IT 预算扩张,超过全球 IT 支出的 26%,到 2029 年将达到 1.3 万亿美元
代理人工智能支出空前激增,并标志着企业 IT 预算(尤其是在软件方面)正在转变为由基于代理人工智能基础的产品和服务主导的投资战略。

0评论2025-08-292728