WanX 通常指通义万相 WanX,是阿里云通义旗下的一款 AI 创意作画平台中的多模态大型模型1。以下是其相关介绍1:
- 版本升级:2025 年 1 月 8 日,WanX 团队发布最新版本 WanX 2.1,该版本在 2023 年 7 月发布的基础上进行了重大升级,显著提升了图像和视频生成能力,尤其在视频生成领域取得了突破性进展。
- 功能特点
- 更逼真的视觉效果:能够更准确地处理复杂的运动,提高像素质量,遵守物理规则,并增强指令执行的精确度。
- 复杂运动的精准处理:能够处理大规模的身体运动和复杂的旋转,即使在花样滑冰、游泳和跳水等具有挑战性的场景中也能保持身体协调性和真实的运动轨迹。
- 支持中英文文字特效:成为首个支持中英文文字特效生成的视频生成模型,满足广告和短视频制作等不同行业的创意需求。
- 高效的编解码:利用自研的高效 VAE 和 DiT 架构,支持无限长 1080P 视频的高效编解码。
- 图像生成增强:引入了 IC - LoRA 图像生成训练方法,结合 DiT 架构,显著增强了文本到图像的上下文能力,支持文生组图,可以对多张图像进行拼接与联合描述,实现关联图像间的组合生成,并保持特征稳定和连续。
- 物理规律的精准模拟:能够真实还原碰撞、反弹、切割、挤压等物理规律,提升了画面的逼真度。
- 核心原理
- 高效 VAE 和 DiT 架构:自研的高效 VAE(变分自编码器)和 DiT(Diffusion Transformer)架构增强了时空上下文建模能力,提升了视频生成质量和效率。
- IC - LoRA 图像生成训练方法:用于图像生成,结合 DiT 架构增强文本到图像的上下文能力,支持文生组图功能。
- Flow Matching 训练框架:基于线性噪声轨迹的 Flow Matching 方案,提升了模型收敛性、生成质量和效率。
- 时空全注意力机制和参数共享机制:在 DiT 架构中应用,提升性能并降低训练成本。
- 百万级序列高效处理:通过分布式、显存优化的训练策略,实现了百万级超长序列的高效训练。
- 自动化数据构建和模型评估:自动化数据构建管线保证数据质量,自动化度量机制提升模型评估效率。
- 应用场景:其应用前景广泛,包括影视创作、广告营销、教育培训、游戏娱乐等领域,能为相关行业提供高效便捷的工具,帮助实现创意、传播品牌形象、提供教学内容以及提升游戏体验等。
- 使用方式:WanX 2.1 目前没有开源,无法本地安装,可在通义万相官网免费使用。生成视频需要消耗灵感值(可通过签到、APP 创作、创作反馈等方式获取),图像创作每次消耗 1 点,视频创作每次消耗 5 点。
通义是一个通情、达义的国产AI模型,可以帮你解答问题、文档阅读、联网搜索并写作总结,最多支持1000万字的文档速读