ITCOW牛新网 1月10日消息,阿里巴巴旗下通义万相宣布推出全新升级的 2.1 版本,进一步优化了视频生成和图像生成的核心技术,为内容创作者提供更强大的生成能力和更高效的工具支持。
视频生成:首创中文文字视频生成功能,时空建模能力显著增强
通义万相 2.1 在视频生成方面实现了技术突破,采用自研高效的 VAE(变分自动编码器) 和 DiT(Diffusion Transformer) 架构,显著提升了对时空上下文的建模能力。这一升级不仅使得其能够高效编解码无限长度的 1080P 视频,还首次支持中文文字的视频生成功能,成功登顶 VBench 榜单第一。
新版本支持中英文视频生成,并可一键添加艺术字等多样化效果,同时提供丰富的视频特效选项,例如过渡、粒子效果和模拟等,以增强视觉表现力。此外,通义万相 2.1 能够实现复杂运镜操作,精准模拟真实物理规律,例如雨滴落在伞面上溅起水花的细节,进一步提升了动态效果的真实感。
图像生成:支持文生组图,强化多图像关联生成能力
在图像生成方面,通义万相 2.1 推出了 IC-LoRA 图像生成训练方法,结合 DiT 架构,进一步增强了文本到图像的上下文关联能力。新版本不仅支持单张图像生成,还能够对多张图像进行拼接与联合描述,生成具有逻辑关联性的组合图像,同时保持特征的稳定性和连续性。
这一能力对需要跨场景或多主题表达的创作需求尤为适用,例如可以轻松实现故事场景的连贯呈现,或将复杂的设计元素统一整合到一组图像中,大幅提高创作效率。