说到AI生成工具,也许大家更常用到的是AI文生图功能,然而Sora 的出现推动了 AI 大模型的新玩法,能基于任意文字生成视频,包括 Runway 的 Gen 系列、微软的 Nuwa、Meta 的 Emu、谷歌的 Phenaki/VideoPoet、智谱的 CogVideo 等。
7 月 26 日,智谱 AI CEO 张鹏在智谱 Open Day 上宣布,AI 视频生成模型清影(Ying)正式上线智谱清言。用户只需 30 秒即可生成 6 秒时长、1440x960 清晰度的 3:2 比例视频。所有 PC 端用户都可以通过清影(Ying)体验 AI 生成视频的功能。
用户只需输入一段文字(Prompt),即可选择生成不同风格的视频,包括卡通 3D、黑白、油画、电影感等,还可以配上清影自带的音乐,生成充满 AI 想象力的视频片段。除了文本生成视频,用户还可以使用图片生成视频功能,带来更多新玩法,如表情包、广告、剧情和短视频创作。同时,清影的「老照片动起来」小程序也同步上线,只需上传老照片,即可让照片变得灵动。
清影(Ying)API 已同步上线大模型开放平台 ,企业和开发者可通过调用 API,体验AI文生视频和AI图生视频功能。在首发测试期间,所有用户均可免费使用,不限次数。此后,付费 5 元可解锁一天的高速通道,付费 199 元可解锁一年的高速通道。
Prompt: 两只熊猫在竹林李嬉戏
素材原图:
AI生成后的视频:
清影(Ying)的底层视频生成模型是 CogVideoX,它通过融合文本、时间、空间三个维度,相比前代推理速度提升了 6 倍。智谱还自研了端到端视频理解模型,用于为海量视频数据生成详细描述,增强模型的文本理解和指令遵循能力,使生成的视频更符合用户输入。
此外,智谱 AI 自研了高效三维变分自编码器结构(3D VAE),将原视频空间压缩至 2% 大小,配合 3D RoPE 位置编码模块,更好地在时间维度上捕捉帧间关系,建立视频中的长程依赖。智谱的生成式视频研发过程中,Scaling Law 继续在算法和数据两方面发挥作用,确保模型的高效性和性能提升。
bilibili 和华策影视作为合作伙伴,参与并支持了清影的研发。北京市海淀区为智谱 AI 提供了全方位支持,亦庄集群为其提供了算力支持。