1. 概述TI2V Text-Image-to-Video即文本图像到视频的统一生成模型。Wan2.2-TI2V-5B 是阿里通义万相团队发布的 5B 参数量的密集Dense视频生成模型同时支持纯文本驱动和图文联合驱动的视频生成。2. 整体架构Text Prompt ──→ [umT5-XXL Text Encoder] ──→ Text Embeddings ──┐ │ Cross-Attention ↓ Input Image ──→ [Wan-VAE Encoder] ──→ Image Latent ──┐ ┌─────────────────┐ ├──→ │ DiT Backbone │ ──→ Denoised Latent ──→ [Wan-VAE Decoder] ──→ Video Gaussian Noise ──→ Noise Latent ─────────────────────┘ │ (30-layer DiT) │ │ Flow Matching │ Condition Mask ──→ Binary Mask ──────────────────────┘ └─────────────────┘2.1 核心组件组件规格骨干网络Diffusion Transformer (DiT), 5B 密集参数文本编码器umT5-XXL (5.3B 参数, 双向Transformer)视频VAEWan-VAE, 3D因果卷积训练框架Flow Matching (ODE-based)输出帧率24fps推理显存≥22-24GB VRAM (消费级GPU可运行)2.2 DiT Backbone 细节层数: 30层 Transformer Block共享 AdaLN 参数设计注意力机制:Full Attention: 对时空patch token做完整自注意力spatial-temporal self-attentionCross-Attention: 文本条件通过 cross-attention 注入时间嵌入: 通过共享MLP路由的time embedding注入每一层Patchification: 时空patch化策略将latent划分为token序列3. VAE 架构 (Wan-VAE)Wan-VAE 是专为视频设计的 3D 时空变分自编码器结构: 3D 因果卷积Causal 3D Convolution确保未来帧不影响过去帧TI2V-5B 压缩比:4×16×16时间4倍 × 空间16×16倍总压缩64倍对比 Wan2.1 14B 版本的 4×8×8 压缩比TI2V-5B 采用更激进的空间压缩Latent通道数: 16 channels首帧处理: 对首帧仅做空间压缩不做时间压缩保留完整首帧信息长序列支持: 通过分块特征缓存机制支持长视频推理4. 图像条件注入方式4.1 Channel Concatenation通道拼接图像条件注入的核心方式是通道维度拼接channel concatenation1. 首帧图像 I 通过 VAE Encoder 编码为 latent: z_image 2. 后续帧位置填充零帧一起送入 VAE Encoder 3. 生成的 image latent 与 noise latent 在 channel 维度拼接: input concat([x_t, z_image], dimchannel) 4. 同时生成 binary mask 标识哪些位置是已知首帧vs 需要生成的 5. 拼接后的tensor送入 DiT backbone 进行去噪4.2 具体流程首帧编码: 将输入图像 I 与零填充的后续帧一起送入 VAE encoder ℰ → 得到 z_imageMask生成: 创建二值mask首帧位置1保留其余位置0生成Channel拼接:[noise_latent, image_latent, mask]沿通道维度拼接去噪生成: 拼接后的tensor通过DiT backbone迭代去噪解码输出: 去噪后的latent通过VAE Decoder解码为视频4.3 额外的图像特征注入除了channel concat外还通过Decoupled Cross-Attention注入全局图像语义特征提供高层语义引导。5. 可选输入输入是否必须说明Text Prompt必须文本描述通过umT5-XXL编码后cross-attention注入Image (首帧图)可选提供图像时为I2V模式不提供时为纯T2V模式Negative Prompt可选CFG引导的负面提示分辨率/时长可选支持 1280×704 或 704×1280 (720P)关键结论图像不是必须输入。官方明确说明“For text to video just don’t give it a start image.”不提供图像时模型退化为纯文本到视频T2V模式提供图像时该图像作为首帧参考图固定画面构图、主体特征与场景基调。6. 为什么没有单独的 5B T2V 版本6.1 设计理念Wan2.2-TI2V-5B 本身就是一个统一的混合模型同时覆盖 T2V 和 I2V 两种能力不提供图像→ 等价于 T2V纯文本生成视频提供首帧图像→ I2V图像驱动视频生成因此不需要单独发布 5B T2V 版本。6.2 架构原因对比项TI2V-5B (Wan2.2)T2V-14B (Wan2.1/2.2)参数量5B 密集27B总/14B激活 (MoE)架构Dense TransformerMixture-of-Experts (MoE)VAE压缩4×16×16 (64倍)4×8×8 (256通道)显存需求≥22-24GB≥80GB定位消费级/高效推理企业级/极致质量5B 选择 Dense 架构 高压缩VAE牺牲部分生成质量换取消费级GPU可运行14B 采用 MoE 架构通过专家路由实现更强的生成能力但需要企业级硬件5B 设计为统一模型通过图文混合训练一个模型覆盖两种使用场景最大化模型利用率6.3 技术原因纯 T2V 任务在 5B 参数规模下生成质量有限缺乏视觉锚点但加入首帧图像条件后图像提供了强视觉先验降低了生成难度模型可以专注于动态生成而非场景构建在有限参数下获得更好的视觉质量因此 5B 规模更适合做 TI2V统一模型而非纯 T2V。7. 首帧图像的角色首帧图像在模型中扮演**视觉锚点(Visual Anchor)**的角色构图锁定: 确定画面的空间布局和构图主体特征保持: 保持人物/物体的视觉外观一致性场景基调设定: 确定光照、色彩风格、环境氛围降低生成难度: 提供强先验让模型专注于运动和动态生成注意: 这里的图像特指首帧图(First Frame)不是中间帧或末尾帧。模型从首帧出发向后生成后续帧的运动序列。8. Wan2.2 vs Wan2.1 的改进改进项说明训练数据图像数据增加65.6%视频数据增加83.2%14B MoE架构新增Mixture-of-Experts路由基于信噪比切换专家TI2V-5B统一模型新增5B混合模型同时支持T2V和I2V高压缩VAETI2V-5B采用更高压缩比(4×16×16)的VAELoRA支持原生支持不同噪声阶段使用不同LoRA权重9. MoE路由机制14B版本独有Wan2.2的14B版本引入了基于信噪比(SNR)的专家路由高噪声专家: 处理初始去噪阶段构图、整体结构低噪声专家: 处理精细去噪阶段纹理、细节切换条件: 当噪声水平降至一半时从高噪声专家切换到低噪声专家总参数27B: 任何时刻只有14B参数激活TI2V-5B 不使用 MoE采用标准的Dense Transformer设计。10. 三个模型版本对比TI2V-5B vs T2V-A14B vs I2V-A14BWan2.2 系列共发布了3 个主要模型模型任务参数量架构分辨率显存需求Wan2.2-TI2V-5B统一 T2V I2V5B Dense标准DiT 高压缩VAE720P 24fps~22-24GB消费级Wan2.2-T2V-A14B仅文生视频27B总/14B激活MoE DiT (高/低噪声双专家)480P / 720P~80GB企业级Wan2.2-I2V-A14B仅图生视频27B总/14B激活MoE DiT (高/低噪声双专家)480P / 720P~80GB企业级“A14B” 命名约定Activated14Billion表示总参数27B但每步只激活14BMoE路由的结果10.1 核心差异维度TI2V-5BT2V-A14B / I2V-A14B架构类型Dense TransformerMixture-of-Experts (MoE)参数总量5B全激活27B总14B激活VAE压缩比4×16×1664倍4×8×8256倍空间通道扩展专家路由无高噪声专家 低噪声专家任务覆盖T2V I2V统一单一模态专用训练策略图文混合训练各自任务独立训练画质定位高效/消费级电影级/极致质量节省计算通过高压缩VAE降低Latent尺寸MoE使同参数下节省~50%计算目标用户消费级GPU个人开发者企业/工作室级生产10.2 为什么 14B 拆成 T2V 和 I2V 两个独立模型原因一MoE 路由按噪声阶段切分无法再分支任务条件14B 的 MoE 不是按任务类型分专家而是按信噪比 (SNR) 的去噪阶段高噪声专家: 在 t 900 的时间步工作负责构建整体布局、主体结构低噪声专家: 在 t 900 的时间步工作负责精细纹理、细节完善两个专家都是完整的14B DiT专家槽位已经被噪声阶段占满。如果再混入T2V I2V两种条件输入模式会有以下问题输入channel维度不一致I2V需要concat首帧latent maskT2V不需要输入分布发生严重偏移会损害各专家的去噪精度训练时两种任务的梯度可能互相干扰难以收敛到最优原因二14B高质量定位要求极致专精14B 系列定位电影级质量每个模态都希望模型完全聚焦T2V-A14B: 训练数据完全无图像条件模型完全学习从文本想象画面的能力I2V-A14B: 训练数据完全带首帧条件模型完全学习从首帧延展运动的能力这种单一模态专精能带来比统一模型更高的生成质量符合14B的极致定位。原因三输入channel架构差异大项T2V-A14BI2V-A14BDiT 输入channel仅 noise latent (16)noise image latent mask (1616436)Patch Embedding16 in_channels36 in_channels训练目标分布完全噪声分布首帧固定后续噪声分布由于输入channel数完全不同等于第一层 Conv/Linear 的权重形状不同本质上是两个不同的网络。强行合并需要额外的 mask 切换或 zero-init 技巧会损害性能。原因四5B为什么能统一5B 选择统一的TI2V设计是基于工程权衡而非技术限制5B 选择统一的理由14B 选择拆分的理由5B本身规模小分两版会摊薄训练资源14B资源充足能各自训练得很充分消费级用户期望一模多用企业用户能针对场景部署专用模型通过随机训练50%给首帧50%不给让模型学会两种模式MoE槽位已占满无法再分高压缩VAE使输入序列短统一模型仍快拆分能给每个任务最大化质量不追求极致质量追求易用性追求电影级质量需要专精5B 在训练时通过条件随机Dropout实现统一一定概率如50%将首帧condition置为零mask0→ 学T2V另一定概率提供首帧conditionmask1→ 学I2V推理时根据用户是否提供图像自动切换模式。等价于在一个模型内同时训练了T2V和I2V任务。10.3 选择哪个模型需求推荐消费级硬件24GB显存/快速出片TI2V-5B既要文生又要图生但只想部署一个模型TI2V-5B企业级硬件80GB/追求电影级画质T2V-A14B或I2V-A14B只做文生视频追求最高质量T2V-A14B只做图生视频追求最高质量I2V-A14B学术研究/微调视任务而定5B训练成本低14B质量好11. 模型仓库格式说明-Diffusers后缀 vs 原版Hugging Face 上同一个模型常出现两个版本Wan-AI/Wan2.2-TI2V-5B原版/官方推理代码版Wan-AI/Wan2.2-TI2V-5B-DiffusersDiffusers库适配版两者权重内容完全一致区别只在于文件组织格式、加载方式、推理代码框架。11.1 核心区别对比维度原版 (无-Diffusers)Diffusers版仓库定位官方Wan团队的原始训练格式适配HuggingFace Diffusers库的标准格式文件结构所有权重在一个目录下分子目录text_encoder/,transformer/,vae/,scheduler/配置文件自定义config如config.json标准Diffusers configmodel_index.json 子模块config权重命名原始训练阶段的参数名重映射为Diffusers模块对应的层名加载方式python generate.py --task ti2v-5B --ckpt_dir ...WanPipeline.from_pretrained(model_id)推理代码官方仓库的generate.pyDiffusers Pipeline API依赖PyTorch ≥2.4 官方requirements.txtdiffusers通常需要安装git版本CLI/PythonCLI参数驱动Python API驱动生态集成独立运行易与LoRA/ControlNet/调度器/Accelerate集成量化/优化官方提供的--offload_model True --t5_cpu等flagDiffusers的enable_model_cpu_offload()等方法11.2 文件结构示例原版Wan2.2-TI2V-5B:Wan2.2-TI2V-5B/ ├── Wan2.2_VAE.pth ├── models_t5_umt5-xxl-enc-bf16.pth ├── google/umt5-xxl/... ├── diffusion_pytorch_model.safetensors ├── config.json └── ...Diffusers版Wan2.2-TI2V-5B-Diffusers:Wan2.2-TI2V-5B-Diffusers/ ├── model_index.json # 标准Diffusers入口 ├── scheduler/ │ └── scheduler_config.json ├── text_encoder/ │ ├── config.json │ └── model-00001-of-00X.safetensors ├── tokenizer/ │ └── ... ├── transformer/ │ ├── config.json │ └── diffusion_pytorch_model-00001-of-00005.safetensors │ └── diffusion_pytorch_model.safetensors.index.json └── vae/ ├── config.json └── diffusion_pytorch_model.safetensors11.3 推理代码对比原版命令行风格:python generate.py\--taskti2v-5B\--size1280*704\--ckpt_dir./Wan2.2-TI2V-5B\--offload_modelTrue\--t5_cpu\--promptA cat dancing on the moonDiffusers版Python API:fromdiffusersimportWanPipeline,AutoencoderKLWan,UniPCMultistepSchedulerimporttorch model_idWan-AI/Wan2.2-TI2V-5B-DiffusersvaeAutoencoderKLWan.from_pretrained(model_id,subfoldervae,torch_dtypetorch.float32)pipeWanPipeline.from_pretrained(model_id,vaevae,torch_dtypetorch.bfloat16)pipe.schedulerUniPCMultistepScheduler.from_config(pipe.scheduler.config)pipe.to(cuda)outputpipe(promptprompt,negative_promptnegative_prompt,height704,width1280,num_frames121,).frames[0]11.4 如何选择使用场景推荐版本复现官方Demo / 工业部署原版与论文/官方代码完全对齐研究开发 / 改模型结构原版代码更透明方便Hack快速集成到现有Diffusers项目Diffusers版训练LoRA / DreamBoothDiffusers版生态工具丰富ComfyUI 工作流视具体节点而定多数支持原版.safetensors多GPU/CPU offload / 量化Diffusers版Accelerate/bitsandbytes兼容好11.5 互相转换原版 → Diffusers使用diffusers/scripts/convert_*_to_diffusers.py转换脚本社区或官方提供Diffusers → 原版较少见通常用state_dict()重命名权重结论两者是同一个模型的不同打包形式权重数学上等价。选哪个取决于你用什么推理框架。12. 训练时长预估⚠️说明官方论文未公开具体的训练GPU小时数和训练时长以下基于公开数据集规模、模型参数量、对比同规模开源模型CogVideoX、HunyuanVideo、Open-Sora做出的工程估算。12.1 从零预训练Pretraining已知信息训练数据数十亿billions规模的图像 视频Wan2.2 比 Wan2.1 多 65.6% 图像 83.2% 视频模型规模5B Dense参数 Wan-VAE umT5-XXL预估阶段GPU 集群规模预估时长GPU 小时VAE 预训练64-128 × H1001-2 周~15-40k GPU·h图像预训练 (Image-only)256-512 × H1002-4 周~80-200k GPU·h视频联合训练 (Video Joint)512-1024 × H1004-8 周~200-600k GPU·h多分辨率/长视频微调256-512 × H1001-2 周~40-120k GPU·h总计-2-4 个月~400k-1M GPU·h对比参考HunyuanVideo (13B): 约 2-3 个月 / 数千张 H100CogVideoX (5B): 约 1-2 个月 / 数百张 A100Open-Sora 1.0/2.0 (~5B): 数十万 GPU 小时12.2 全量微调Full Finetune针对特定领域/风格的全参数微调数据规模硬件配置预估时长100-1k 短视频8 × A100/H1001-3 天1k-10k 短视频16-32 × A100/H1003-7 天10k-100k 视频32-64 × A100/H1001-3 周域适应大规模微调64-128 × H1002-4 周12.3 LoRA 微调推荐方案LoRA 是最常见的下游适配方案时长可控数据规模硬件训练步数预估时长~40 短clips (25k帧-caption对)1 × A100-40GB4000 steps~3小时12分~40 短clips2 × A100-80GB4000 steps~1小时36分100-500 视频1 × A100/H1005-10k steps4-10 小时1k 视频2-4 × A100/H10010-20k steps8-24 小时角色/风格 LoRA1 × RTX 4090 (24GB)2-5k steps6-15 小时消费级硬件RTX 4090 (24GB): 可训练 LoRA但单次训练约 6-15 小时RTX 3090 (24GB): 类似需开启梯度累积和优化不建议在 24GB 显存上训练需大量优化技巧12.4 影响训练时长的关键因素视频长度从1秒到5秒训练时长可能差 3-5 倍分辨率720P 比 480P 训练慢 2-3 倍batch size受显存限制影响收敛速度数据加载视频解码 I/O 常成为瓶颈MoE vs Dense5B Dense 比 14B MoE 训练吞吐更高是否冻结 VAE/Text Encoder通常冻结仅训练 DiT12.5 推理时长作为参考硬件5秒720P视频生成RTX 4090 (24GB)~3-9 分钟A100 (80GB)~1-3 分钟H100 (80GB)~30-90 秒13. 总结Wan2.2 视频生成系列共有3 个主要模型针对不同场景模型任务架构显存定位TI2V-5BT2V I2V 统一5B Dense 高压缩VAE(64倍)22-24GB消费级/快速T2V-A14B纯文生视频MoE 27B总/14B激活80GB企业级/极致质量I2V-A14B纯图生视频MoE 27B总/14B激活80GB企业级/极致质量TI2V-5B 关键特性通过高压缩VAE4×16×16总64倍压缩和 5B Dense DiT 实现消费级 GPU 推理图像输入可选不提供时退化为 T2V提供时为 I2V首帧图作为视觉锚点图像条件通过 Wan-VAE 编码后channel concat binary mask注入文本条件通过umT5-XXL编码后 cross-attention 注入没有单独的 5B T2V 版本TI2V 已通过条件随机 Dropout 训练覆盖了 T2V 功能14B 为何拆分而 5B 统一14B 的 MoE 槽位被信噪比阶段高噪/低噪专家占满无法再容纳任务分支T2V 和 I2V 的 DiT输入通道数不同16 vs 36等于不同的网络14B 追求电影级质量单一模态独立训练能保证专精5B 通过 condition dropout 实现统一牺牲少量质量换取易用性模型仓库格式原版(Wan2.2-TI2V-5B): 官方训练格式CLI 推理所有权重在一个目录Diffusers版(Wan2.2-TI2V-5B-Diffusers): HF标准格式分子目录WanPipeline.from_pretrained()加载两者权重数学等价选哪个取决于使用的推理框架训练成本估计预训练2-4 个月 / ~400k-1M GPU 小时百级 H100 集群LoRA 微调小数据A100 上 1-3 小时RTX 4090 上 6-15 小时全量微调1 天-3 周视数据规模参考来源Wan2.2-TI2V-5B - Hugging FaceWan2.2-TI2V-5B-Diffusers - Hugging FaceWan2.2-TI2V-5B-Diffusers - ModelScopeWan2.2 GitHub RepositoryWan Paper (arXiv:2503.20314)Wan2.1 GitHub RepositoryWan 2.2 Architecture - DeepLearning.AIWan-Move Paper (Image Condition Details)53AI Wan2.1 技术解读Diffusers WanImageToVideoPipeline