根据404 Media的报道,Runway通过使用成千上万的YouTube视频和盗版影片来训练其AI文本生成视频生成器。一份由404 Media获得的训练数据表格显示,该数据集中包括来自Netflix、Disney、Nintendo和Rockstar Games等主要娱乐公司的YouTube频道链接,以及MKBHD、Linus Tech Tips和Sam Kolder等创作者的频道链接。
此外,这些数据集中还包含新闻机构如The Verge、The New Yorker、Reuters和Wired的频道链接。一位前Runway员工告诉404 Media:“表格中的频道是公司范围内努力寻找优质视频以构建模型的结果。这些视频随后被用作一个大型网络爬虫的输入,该爬虫通过代理下载了所有这些频道中的视频,以避免被Google封锁。”
Runway是一家AI初创公司,获得了来自Google母公司Alphabet和Nvidia的数百万美元投资。它开发了令人印象深刻的工具,允许用户制作逼真的AI视频以及具有特定动画类型的视频。Runway最新的工具Gen-3 Alpha于6月推出,可以“以你能想象的任何风格创建视频”。与其他AI模型一样,Gen-3 Alpha在训练时需要摄取大量内容。
404 Media还发现,Runway的数据集中包含盗版网站的链接,例如KissCartoon,该网站允许你免费观看动漫和其他动画内容。目前尚不清楚Runway是否使用了表格中的所有视频来训练其Gen-3 Alpha模型——我们可能永远不会知道。在6月接受TechCrunch采访时,Runway联合创始人Anastasis Germanidis表示,公司使用“精选的内部数据集”来训练其模型,但未提供进一步详细信息。
在回应评论请求时,Google向The Verge提供了YouTube CEO Neal Mohan的一份声明,后者在4月告诉彭博社,在该平台的视频上训练AI是“明显违反”其政策的。The Verge联系了Runway请求评论,但未立即得到回应。
其实有关AI文本生成工具都需要经过大量模型训练,而且Runway并不是唯一一家与YouTube视频相关的AI公司。今年早些时候,OpenAI CTO Mira Murati表示,她“不确定”公司是否在其文本生成视频工具Sora上训练了YouTube视频。同时,Proof News和Wired最近的一份报告发现,Anthropic、Apple、Nvidia和Salesforce在其AI模型上训练了超过170,000个YouTube视频。