阿里云栖大会发布7款大模型，通义万相Wan2.5-preview成AI视觉生成新标杆_AI_

在杭州举办的云栖大会上，阿里巴巴集团一口气发布了七款人工智能大模型，其中最受瞩目的当属通义万相Wan2.5-preview。这款全模态视觉生成模型首次实现了音画一体的视频生成功能，标志着阿里在多模态技术领域取得了重大突破。

据阿里云智能集团首席技术官周靖人介绍，通义万相Wan2.5-preview采用了原生多模态架构，将文本、图像、音频等不同模态的数据统一处理。该模型集成了文生视频、图生视频、文生图和图像编辑四大功能模块，能够生成电影级别的视频内容，为用户提供全感官的叙事体验。

在实际测试中，Wan2.5-preview展现出了惊人的文本理解和推理能力。用户只需输入一段文字描述，模型就能自动生成与之匹配的语音和视频画面，且人物口型与语音完美同步。例如，当输入一段关于白人女性拆礼物的详细描述后，模型不仅生成了逼真的光影效果和人物表情，还精准还原了钢琴声和人物对话。

这款模型在视频生成方面实现了多项升级。视频时长从原来的5秒延长至10秒，支持24帧每秒的1080P高清输出，能够生成更完整的剧情故事。在操控性方面，模型对复杂指令的理解能力显著提升，可以完成运镜控制和人物变身等高级图像编辑任务。

Wan2.5-preview的最大亮点在于其原生多模态架构。这是国内首个将声音、图像、文本作为统一语料进行训练的模型，能够在同一框架下完成多种任务。相比传统非原生架构，这种设计避免了信息损耗和误差累积，使模型具备了更强的跨模态推理和生成能力。

在图像生成方面，该模型的美学质感和指令遵循能力都有显著提升。它能够根据复杂的诗歌描述生成意境匹配的图片，在图表生成和文字稳定性方面也表现出色。图像编辑功能支持丰富的指令操作，同时保持视觉元素的一致性。

具体应用案例展示了模型的强大能力。在生成婚礼求婚场景时，模型不仅准确还原了人物动作和光影效果，还完美匹配了婚礼进行曲和新郎的对话。对于极快语速的RAP说唱，模型也能确保人物口型与语音同步，毫无破绽。

音效生成是Wan2.5-preview的另一大特色。在骑士骑马和女子打网球的场景中，模型生成了马蹄声、裁判哨音、网球撞击声等环境音效，大大增强了视频的真实感。对于跳舞场景，模型还能根据描述生成匹配的背景音乐，准确把握嘻哈风格的节奏特点。

目前，用户可以通过阿里云百炼平台调用API，或直接在通义万相官网体验这款模型。阿里提供的官方数据显示，通义万相系列模型已支持十多种视觉创作功能，累计生成了3.9亿张图片和7000万个视频，成为中国调用量最大的视觉生成模型之一。

在开源领域，通义万相也取得了显著成果。自今年2月以来，该系列已连续开源20多款模型，在开源社区和第三方平台的下载量超过3000万次，成为最受欢迎的视频生成模型之一。随着世界模型的面世，阿里在人工智能领域的布局将更加完善。

2026协作机器人新趋势：搬运上下料稳根基，涂胶检测成增长新引擎

0评论2026-06-231960

2026人工智能+广电视听创新应用大赛启幕共筑面向东盟AI合作新高地

0评论2026-06-231824

第四届链博会今日在京启幕人工智能专区亮相多领域AI应用精彩纷呈

0评论2026-06-231587

百川医疗大模型M4登顶全球榜单：以精准医疗能力重塑智能诊疗新范式

0评论2026-06-231555

英伟达发布Halos for Robotics首个人工智能安全系统

0评论2026-06-231426

光热储能研究生科研指南：巨星教授揭秘破局同质化与创新之道

0评论2026-06-182300

九识（苏州）智能科技注册资本增至2.13亿聚焦人工智能领域发展

0评论2026-06-182226

捷象灵越获极智嘉战略投资共拓全球托盘自动化市场

0评论2026-06-182335

智能眼镜成首批受益者！高通推出全新个人 AI 设备上市加速计划

0评论2026-06-18793

九章云极AI工厂战略发布：以DCU为尺引领智算产业迈向“价值消费”新时代

0评论2026-06-182095