智谱推出新AI视频生成模型，免费使用，B站也参与研发

Chris 发布于 Aug 15, 2024

2 分钟阅读

智谱推出的清影（Ying）AI视频生成模型，支持文字或图片生成，仅需30秒即可生成高质量视频，免费不限次使用。

说到AI生成工具，也许大家更常用到的是AI文生图功能，然而Sora 的出现推动了 AI 大模型的新玩法，能基于任意文字生成视频，包括 Runway 的 Gen 系列、微软的 Nuwa、Meta 的 Emu、谷歌的 Phenaki/VideoPoet、智谱的 CogVideo 等。

清影PC端操作界面

7 月 26 日，智谱 AI CEO 张鹏在智谱 Open Day 上宣布，AI 视频生成模型清影（Ying）正式上线智谱清言。用户只需 30 秒即可生成 6 秒时长、1440x960 清晰度的 3:2 比例视频。所有 PC 端用户都可以通过清影（Ying）体验 AI 生成视频的功能。

用户只需输入一段文字（Prompt），即可选择生成不同风格的视频，包括卡通 3D、黑白、油画、电影感等，还可以配上清影自带的音乐，生成充满 AI 想象力的视频片段。除了文本生成视频，用户还可以使用图片生成视频功能，带来更多新玩法，如表情包、广告、剧情和短视频创作。同时，清影的「老照片动起来」小程序也同步上线，只需上传老照片，即可让照片变得灵动。

清影（Ying）API 已同步上线大模型开放平台，企业和开发者可通过调用 API，体验AI文生视频和AI图生视频功能。在首发测试期间，所有用户均可免费使用，不限次数。此后，付费 5 元可解锁一天的高速通道，付费 199 元可解锁一年的高速通道。

清影–AI文生视频

Prompt: 两只熊猫在竹林李嬉戏

AI文生视频

清影–AI图生视频

素材原图：

AI图生视频素材图

AI生成后的视频：

清影（Ying）的底层视频生成模型是 CogVideoX，它通过融合文本、时间、空间三个维度，相比前代推理速度提升了 6 倍。智谱还自研了端到端视频理解模型，用于为海量视频数据生成详细描述，增强模型的文本理解和指令遵循能力，使生成的视频更符合用户输入。

此外，智谱 AI 自研了高效三维变分自编码器结构（3D VAE），将原视频空间压缩至 2% 大小，配合 3D RoPE 位置编码模块，更好地在时间维度上捕捉帧间关系，建立视频中的长程依赖。智谱的生成式视频研发过程中，Scaling Law 继续在算法和数据两方面发挥作用，确保模型的高效性和性能提升。

bilibili 和华策影视作为合作伙伴，参与并支持了清影的研发。北京市海淀区为智谱 AI 提供了全方位支持，亦庄集群为其提供了算力支持。