好消息:智谱发布了目前性能最强的开源视频生成模型,看效果已经能和很多收费模型媲美了~!😮
坏消息:目前需要A100/H100才能跑,坐等大神优化🥹
THUDM/CogVideoX1.5-5B-SAT · Hugging Face
🧐CogVideoX1.5-5B-SAT是开源的CogVideoX1.5的最新版本,支持更高分辨率的10秒视频生成,具备从图像到视频(I2V)和从文本到视频(T2V)两种生成模式。
➡️链接:网页链接
✨重点
● 🎥 多模式视频生成:CogVideoX1.5-5B-SAT包含专用的I2V和T2V模块,允许用户根据图像或文本生成长达10秒的高分辨率视频。
● 🔄 模块化结构:模型包括VAE模块和T5文本编码器,允许兼容前版本的VAE权重,从而简化更新并增强生成稳定性。
● 🔧 SAT权重优化:利用SAT(优化序列)权重来提升模型生成效率,适合用于处理需要高质量和长时序的视频生成任务。
● 📜 学术支持:模型及其优化在2024年的arXiv论文中详细介绍,为生成式视频任务提供了理论支持。
(视频demo来自X用户)
#你好人工智能时代# #新浪科技# #ai创造营#
版权归属:
创始者
许可协议:
本文使用《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》协议授权
评论区